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本 书 是 斯 坦 福 大 学 知名 计算 机 科学 家 Hector Garcia-Molina, Jeffrey D.UIIman 和 Jennifer Widom 合 作 编 


写 的 一 本 数据 库 系 统 引 论 书籍 。 书 的 前 半 部 分 从 数据 库 设 计 者 、 用 户 和 应 用 程序 员 的 角度 深入 地 介绍 了 
数据 库 。 包 括 最 新 数据 库 标 准 SQL-1999、SQL/PSM、SQL/CLI、ODL 和 XML， 相 比 其 他 大 多 数 书籍 ， 更 多 
地 介绍 了 SQL 内 容 。 本 书 的 后 半 部 分 是 从 DBMS 实 现 的 角度 来 介绍 数据 库 的 ， 覆 盖 了 这 个 领域 内 的 基本 技 
术 ， 并 且 比 其 他 大 多 数 书籍 更 多 地 介绍 了 查询 优化 。 高 级 论题 包括 多 维和 位 图 索引 、 分 布 式 事务 处 理 和 
信息 集成 技术 。 本 书 既 可 用 作 大 学 教科 书 ， 也 可 作为 该 领域 专业 人 员 的 参考 书 。 
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e 使 用 人 们 普遍 关注 的 、 现 实 世 界 的 例子 提高 可 读 性 

@ SQL/PSM (持久 存储 模块 ) 、JDBC (Java 接 口 ) 和 SQL/CLI (ODBC 或 开放 式 数据 库 连 接 ) 等 内 
容 为 本 书 所 特有 

用 ODMG 标 准 0DL 介 绍 了 面向 对 象 设计 ， 用 SQL-99 标 准 介绍 了 对 和 象 -关系 设计 

借助 关系 代数 ， 讲 述 了 查询 处 理 和 查询 优化 的 扩展 内 容 

讨论 了 信息 集成 技术 ， 包 括 数 据 仓库 、 协 调 器 、OLAP、 数 据 立方 体 和 数据 挖掘 技术 

解释 了 很 多 重要 的 专门 技术 ， 如 RAID 盘 的 错误 纠正 、 位 图 索引 、 统 计数 据 的 应 用 以 及 指针 混合 
通过 主页 http: / /www-db. stanford . edu /“ullman /dscb .html 提 供 本 书 更 多 的 附加 资料 


Hector Garcia-Molina 是 斯 坦 福 大 学 计算 机 科学 与 电气 工程 系 教授 ， 发 表 过 大 量 
关于 数据 库 系统 、 分 布 式 系统 和 数字 图 书馆 领域 的 论文 。 


Jeffrey D. Ullman 是 和 ie 福 大 学 计算 机 科学 教授 。 他 独立 或 合作 出 版 715 本 著作 ， 改 
表 了 170 篇 技术 论文 ， 其 中 包括 《A First Course in Database Systems》 (Prentice Hall 出 版 社 ，1997) 和 《Elements 
of ML Programming》 (Prentice Hall 出 版 社 ，1998) 。 他 的 研究 兴趣 包括 数据 库 理论 、 数 据 库 集成 、 数 据 挖 掘 
和 利用 信息 基础 设施 进行 教育 。 他 获得 了 Guggenheim Fellowship 等 多 种 奖励 ， 并 被 推选 进入 美国 国家 工程 院 。 他 
还 被 授予 1996 年 Sigmod 贡 献 奖 和 1998 年 Karl V. Karstrom 杰 出 教育 家 奖 。 
{ 

Jennifer WidOM 是 斯 昌 福 大 学 计算 机 科学 与 电气 工程 系 的 副教授 。 她 还 是 《A First 
Course in Database Systems》 的 作者 之 一 。 她 的 研究 兴趣 包括 半 结 构 化 数据 的 数据 库 系统 和 XML、 数 据 仓库 以 
及 主动 数据 库 系统 。 
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本 书 是 斯 坦 福 大 学 计算 机 科学 专业 数据 库 系列 课程 教科 书 。 书 中 对 数据 库 系统 基本 原 
理 以 及 数据 库 系 统 实现 进行 了 深入 阅 述 ， 并 对 ODL、SQL、 关 系 代数 、 面 向 对 象 查询 、 事 务 
管理 、 并 发 控制 等 内 容 展开 具体 讨论 。 对 该 领域 内 的 一 些 最 新 技术 ， 诸 如 数据 仓库 、 数 据 
控 据 、 数 据 立 方 体系 统 等 ， 也 给 予 了 介绍 。 

本 书 适 合作 为 高 等 院 校 计算 机 专业 研究 生 的 教材 或 本 科 生 的 教学 参考 书 ， 也 适合 作为 
从 事 相关 研究 或 开发 工作 的 专业 技术 人 员 的 高 级 参考 资料 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 夸 断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰 出 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭 理 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积 淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真 正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 图 文 信息 有 限 公司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 禹 选 BERRA LL. SILER, RNS 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum ，Stroustrup ，Kernighan ， 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 皮 藏 。 大 理 石 纹 理 的 封面 ， 也 正体 现 了 这 套 处 书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 衷 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 。 人 迄今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ,这些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原 版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” RIAR 
“全 美 经 典 学 习 指 导 系 列 ”"。 为 了 保证 这 三 套 从 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公司 聘请 了 中 国 科 学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 哈 尔 滨 工业 大 学 、 西 安 交 通 大 学 、 中 国 
人 人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮 电大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 潮 
北 工学 院 、 中 国 国 家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 丛 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
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的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. LT., Stanford, U.C. Berkeley, C. M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵 盖 了 程序 设计 、 数 据 结 构 、 操 作 系统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学、 通信 和 与 网 络 、 离 散 数 学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语 言 设 计 者 之 手 、 有 的 历经 三 十 年 而 不 误 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 堂 而 人 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 ， 


电子 邮件 : hzedu@hzbook.com 

联系 电话 : (010) 68995264 
联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 ] 号 
邮政 编码 : 100037 
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数据 库 系 统 课程 是 计算 机 科学 与 技术 专业 的 一 门 必修 课程 ， 有 一 本 好 的 数据 库 系统 课程 
教材 对 计算 机 科学 技术 专业 的 教学 与 学 习 是 非常 重要 的 。 

本 书 是 斯 坦 福 大 学 计算 机 系 Jeffrey D. Ullman 教 授 ，Jennifer Widom 副 教授 与 Hector 
Garcia-Molina 教 授 等 学 者 在 重新 整理 其 使 用 多 年 的 数据 库 课 程 教材 的 基础 上 ， 精 心 编辑 成 的 
一 本 适用 于 20 周 数据 库 系 统 课程 教学 的 教材 。Jeffrey D. Ullman 教 授 已 从 教 近 40 年 。 自 1980 年 
编写 了 其 第 一 本 数据 库 教材 《数据 库 系 统 原理 》 以 来 ,已 出 版 过 多 本 数据 库 系统 方面 的 教材 。 
本 教材 主要 特点 如 下 :( 1) 内 容 全 面 。 与 数据 库 系统 相关 的 内 容 书 中 都 有 讨论 。 所 介绍 的 语 
言 不 仅仅 介绍 了 标准 SQL 语言 、 关 系 代数 语言 ， 还 介绍 了 较 新 的 面向 对 象 查询 语言 OQL 和 巡 
辑 语言 DAIALOG。(2 ) 内 容 深 入 。 如 讨论 查询 处 理 时 ， 不 仅 给 出 了 查询 逻辑 计划 与 物理 计划 l 
处 理 ， 而 且 还 给 出 了 有 关 查 询 计划 执行 时 的 多 种 处 理 算法 ， 这 些 在 一 般 的 数据 库 系统 书 中 是 
不 常见 到 的 。( 3 ) 举例 多 、 习 题 多 。 书 中 通过 反复 举例 和 在 每 一 小 节 〈 而 不 是 每 一 章 ) 之 后 
给 出 大 量 标 有 难度 的 习题 ， 可 以 有 效 地 引导 学 生 循 序 渐进 地 深入 掌握 教学 内 容 。( 4 ) 在 讨论 
一 些 重 要 的 结论 时 ， 不 仅 陈述 了 该 结论 ， 而 且 还 给 出 了 该 结论 的 证 明 ， 这 反映 了 Ullman 教 授 
扎实 的 数学 背景 的 渊源 ， 为 维护 数据 库 理论 的 严格 性 提供 了 范例 。 

本 书 是 Ullman 教 授 把 斯 坦 福 大 学 季度 学 制 中 的 本 科 生 数据 库 基础 课 (CS145 ) 和 本 科 生 
高 年 级 数据 库 系统 实现 课 ( CS245 ) 合 二 为 一 ， 以 适应 学 期 学 制 教学 而 准备 的 教材 。 我 国 大 
学 基本 上 都 实行 学 期 学 制 ， 数 据 库 课 程 的 学 时 一 般 都 在 60 学 时 以 上 。 随 着 教学 手段 的 改进 
( 如 使 用 多 媒体 教学 )， 大 大 节省 了 板书 时 间 ， 使 得 教学 内 容 的 扩展 成 为 可 能 。 因 此 本 书 的 大 
部 分 内 容 可 以 在 一 学 期 中 完成 。 如 果 不 需 要 对 数据 库 系 统 的 某 个 方面 做 深入 讨论 ， 可 以 省 上 略 
某 些 内容 而 不 影响 教学 的 系统 性 。 数 据 库 系统 课程 教学 中 需要 给 学 生 足 够 多 的 、 难 易 程 度 合 
适 的 实验 练习 ， 在 Ullman 教 授 的 Web 主 页 上 还 给 出 了 与 本 书 配合 的 课程 实验 内 容 ， 这 为 使 用 
本 书 作 为 数据 库 系 统 课程 教学 提供 了 非常 大 的 帮助 。 

本 书 的 翻译 组 织 安排 如 下 ， 岳 丽华 负责 翻译 审 校 了 1-8 章 ， 第 11 章 及 前 言 ， 获 育 虽 负责 翻 
译 审 校 了 9-10 章 ， 其 余 章 节 由 杨 冬 青 、 唐 世 渭 、 徐 其 钧 诸位 老师 负责 翻译 审 校 。 

另外 参加 翻译 工作 的 人 员 还 有 : ARE, REEL. BR. PR. WEE, BRT. BE, 
FR. RR, BRM. ERY. TER., MRR, RAE. OB. BH, 

限于 译 者 的 水 平 ， 译 文中 难免 有 错误 与 不 足 之 处 ， 欢 迎 读者 批评 指正 。 
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前 Ss 


在 斯 坦 福 ， 因 为 执行 的 是 一 年 四 学 期 制 ， 所 以 数据 库 引 论 课 被 分 为 两 门 课 程 。 第 一 门 课 
程 是 CS145, 该 课程 中 只 要 求学 生 学 会 使 用 数据 库 系统 , 而 不 必 做 关于 DBMS 实 现 方面 的 实验 。 
CS145 课 是 CS245 的 预 修 课 。CS245 是 介绍 DBMS 实 现 。 学 生 若 想 进一步 学 习 数 据 库 方向 课程 ， 
则 可 以 学 CS345 ( 此 课 是 理论 课 )、CS346 (该 课 是 DBMS 实 现实 验 课 )， 以 及 CS347 课 程 (该 
课 介绍 事务 处 理 及 分 布 式 数据 库 )。 

从 1997 年 开始 ， 我 们 已 经 出 版 了 两 本 配套 的 书 。《 数 据 库 系统 基础 教程 》 是 为 CS145 课 程 
编写 《数据 库 系 统 实 现 》 是 为 CS245 课 程 以 及 部 分 CS346 课 程 编 写 。 由 于 很 多 学 校 实行 学 期 
制 , 或 者 是 将 这 两 门 数据 库 引 论 课 组 合成 一 门 引 论 课程 ， 因 此 ， 我 们 感到 有 必要 将 上 述 两 本 
书 合成 一 本 书 。 同 时 ， 数 据 库 系统 的 发 展 迫 使 要 开 出 新 的 课程 以 介绍 很 多 新 课题 。 这 样 ， 我 
们 加 入 了 一 些 新 的 内 容 ， 大 多 是 与 应 用 程序 设计 领域 相关 。 如 对 象 关 系数 据 、SQL/PSM ( 存 
储 程序 )、SQL/CLI ( C/SQL 接 口 标准 ) 和 JDBC ( 与 JAVA/SQL 相 同 ) 等 。 


如 何 使 用 该 书 


我 们 建议 用 两 个 学 季 来 讲 该 书 。 如 果 你 遵照 斯 坦 福 方法 ， 则 在 第 一 学 季 中 讲 前 十 章 内 容 ， 
在 第 二 学 季 讲 后 十 章 内 容 。 如 果 你 想 在 一 学 季 中 讲 完 本 书 ， 则 要 省 略 一 些 章节 不 讲 。 

通常 ， 我 们 建议 第 2~7 章 ，11~13 章 ， 以 及 17~18 章 应 该 给 定 较 高 的 优先 数 ， 而 这 些 章 中 
有 一 些 可 以 跳 过 不 讲 。 

车 如 同 我 们 在 CS145 课 程 中 所 做 的 那样 ， 你 想 给 学 生 一 个 真实 的 数据 库 应 用 设计 和 实现 项 
目 作 业 ， 则 应 该 对 书 的 讲解 顺序 做 某 些 调整 ， 使 SQL 的 介绍 较 早 开始 。 虽 然 学 生 在 做 数据 库 
设计 时 需要 规范 化 知识 ， 但 你 可 以 推迟 有 关 函 数 依赖 的 介绍 。 


预备 知识 


我 们 曾经 将 此 书 作 为 本 科 生 和 一 年 级 研究 生 都 选 的 课程 的 教材 。 该 课程 的 正规 的 预 修 条 
件 是 将 其 作为 二 年 级 课程 ， 在 此 之 前 已 学 习 过 :( 1 ) 数据 结构 、 算 法 、 高 散 数 学 。( 2 ) 软件 
系统 、 软 件 工程 和 程序 设计 语言 等 。 所 有 这 些 内 容 中 最 重要 的 是 学 生 至 少 要 对 如 下 内 容 有 基 
本 的 理解 : 代数 表达 式 和 代数 定律 、 逻 辑 、 基 本 的 数据 结构 ( 如 查询 树 和 图 )、 面 向 对 象 程序 
设计 概念 和 程序 设计 环境 。 可 是 我 们 相信 最 合适 的 知识 基础 是 在 修 完 典型 的 计算 机 科学 专业 
课程 体系 的 三 年 级 后 。 


习题 


本 书 几 乎 在 每 一 节 都 包括 了 一 些 扩充 练习 ， 我 们 用 感叹 号 对 难题 做 了 标记 ， 对 最 难 的 习 
题 用 双 感 叹 号 做 了 标记 。 

有 些 习 题 标 有 是 号 ， 对 这 些 习题 我 们 将 努力 通过 该 书 的 网 页 提供 有 关 该 题 的 解法 ， 以 方 
便 读者 访问 。 这 些 解 是 公开 有 效 的 ， 并 且 可 用 于 自 测 。 注 意 ， 在 有 些 情况 下 ， 习 题 B 是 你 对 另 
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一 习题 A 的 修改 和 改造 ， 于 是 如 果 A 的 某 一 部 分 有 和 解 ， 则 你 也 应 该 能 解 出 B 的 对 应 部 分 。 
WWW 网 上 支持 
本 书 的 主页 地 址 是 : 


http: //www-db.stanford.edu/~ullman/dscb, html 

这 里 有 对 加 星 号 习题 的 解 的 勘误 表 及 书 的 备份 。 同 时 还 有 与 课程 CS145 和 CS246 相关 的 作 
业 、 课 程 实现 及 考卷 等 内 容 。 
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第 1 章 BEER 


今天 数据 库 已 是 每 一 项 业务 的 基础 。 数 据 库 被 应 用 于 维护 商业 内 部 记录 ， 在 万 维 网 上 为 顾 
客 和 客户 显示 数据 ， 以 及 支持 很 多 其 他 商业 处 理 。 数 据 库 同样 出 现在 很 多 科学 研究 的 核心 中 。 
天 文学 家 、 人 类 基因 研究 者 和 探索 蛋白 质 医 药性 质 的 生化 学 家 ， 以 及 其 他 很 多 科学 家 搜集 的 数 
据 也 是 用 数据 库 表示 的 。 

数据 库 的 能 力 来 自 于 已 发 展 了 数 十 年 的 知识 和 技术 ， 这 些 知识 和 技术 蕴藏 在 被 称 做 数据 新 
管理 系统 ( database management system) 的 专业 化 软件 中 。 该 软件 也 被 称 做 DBMS ， 或 更 通 
俗 地 称 为 “数据 库 系统 ”。DBMS 是 一 个 能 有 效 建立 和 管理 大 量 数据 的 强大 工具 ， 并 且 能 安全 
地 长 期 保存 这 些 数据 。 数 据 库 系统 是 最 复杂 的 软件 系统 之 一 。DBMS 为 用 户 提供 的 功能 如 下 

1. 持久 看 储 如 同文 件 系统 ，DBMS 支 持 对 独立 于 应 用 的 超大 量 数据 的 存储 。 然 而 ，DBMS 
不 仅 只 是 在 灵活 性 上 优 于 文件 系统 ， 而 且 在 数据 结构 上 ， 还 支持 对 超大 量 数据 的 有 效 访问 。 

2. 程序 设计 接口 DBMS 人 允许 用 户 或 应 用 程序 通过 强 有 力 的 查询 语言 对 数据 进行 访问 和 修 
改 。 而 且 ，DBMS 比 文件 系统 更 具 优点 ， 它 不 仅仅 提供 对 文件 的 读 写 ， 而 且 还 具备 以 更 复杂 的 
方式 管理 数据 的 灵活 性 。 

3. 事务 管理 ”DBMS 支 持 数据 的 并 发 存 取 ， 即 可 以 同时 有 很 多 不 同 的 进程 ( 称 做 “事务 ”) of? 
对 数据 访问 。 为 了 避免 同时 存 取 产 生 不 期 望 的 结果 ，DBMS 要 支持 独立 性 (isolation ) 
次 执行 一 个 事务 ， 原 子 性 ( atomicity ) 一 一 事务 要 么 全 部 执行 要 么 全 部 不 执行 。 DBMS 还 支持 
持久 性 ( durability )， 即 具有 能 从 很 多 类 故障 和 错误 中 恢复 的 能 力 。 


1.1 数据 库 系 统 的 发 展 


数据 库 是 什么 ? 本质 上 讲 ， 数 据 库 就 是 信息 的 集合 。 这 种 集合 可 以 存在 很 长 时 间 ， 通 常 是 
很 多 年 。 一 般 讲 ， 数 据 库 是 指 由 DBMS 管 理 的 数据 的 集合 。DBMS 需 要 有 如 下 功能 : 

1. 允许 用 户 使 用 专门 的 数据 定义 语言 (data-definition language ) 建立 新 的 数据 库 ， 并 说 明 
它们 的 模式 (schema )， 即 数据 的 逻辑 结构 。 

2. 使 用 合适 的 查询 语言 (query language ) 或 数据 操作 语言 (data-manipulation language )， 为 用 
PEREK (query) MRA (modify) 数据 的 能 力 。“ 查 询 ” 是 数据 库 关于 数据 的 提问 的 术语 。 

3. 支持 超大 数据 量 ( 吉 字 节 或 更 多 ) 数据 的 长 时 间 存 储 ， 防 止 对 数据 意外 的 或 非 授 权 的 访 
fa], 并 且 在 数据 库 查询 和 更 新 时 支持 对 数据 的 有 效 存 取 。 

4. 控制 多 个 用 户 对 数据 的 立即 存 取 ， 不 允许 一 个 用 户 的 操作 影响 另 一 个 用 户 ， 也 不 允许 同 
时 存 取 对 数据 的 意外 破坏 。 
1.1.1 早期 的 数据 库 管 理 系 统 

第 一 个 商用 数据 库 管 理 系统 出 现在 20 世 纪 60 年 代 末 。 这 些 系统 都 是 来 自 于 文件 系统 ， 它 们 
提供 某 些 上 述 第 3 项 功能 ; 文件 系统 可 以 长 期 地 存储 数据 ， 并 且 人 允许 大 数据 量 存储 ， 可 是 ， 如 
果 数 据 不 做 备份 ， 文 件 系统 通常 并 不 保证 数据 不 会 丢失 。 当 不 知道 数据 项 在 某 个 文件 中 的 存储 
位 置 时 ， 文 件 系 统 也 不 提供 数据 的 有 效 访问 。 

更 进一步 说 ， 文 件 系统 不 直接 支持 第 2 项 功能 ， 即 没有 对 文件 的 查询 语言 。 对 第 1 项 功能 的 

日 ”边栏 数字 为 原 书页 码 ， 此 页 码 数 与 索引 所 示 页 码 数 呼应 。 
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支持 〈 即 数据 模式 的 支持 ) 也 只 限于 文件 目录 结构 的 建立 。 最 后 ， 文 件 系统 不 满足 第 4 项 功能 。 
当 有 多 个 用 户 或 进程 对 文件 并 发 访问 时 ， 文件 系统 不 能 防止 两 个 用 户 对 同一 个 数据 的 修改 ， 于 
是 将 出 现 一 个 用 户 的 修改 被 丢失 的 情形 。 

在 DBMS 第 一 批 重要 的 应 用 中 ， 数 据 由 很 多 小 数据 项 组 成 ， 并 且 完 成 很 多 查询 或 修改 。 下 
面 是 一 些 例子 。 

飞机 订 票 系统 

这 类 系统 通常 包括 如 下 数据 项 : 

1. 单个 旅客 预定 某 个 航班 的 机 票 ， 包 括 的 信息 有 座位 分 配 、 饮 食 习 惯 等 。 

2. 关于 航班 的 信息 ， 有 飞机 起 飞 和 到 达 的 机 场 、 飞 机 起 飞 和 到 达 时 间或 运营 的 飞机 等 等 。 

3. 有 关机 票 价格 、 机 票 需求 和 剩余 机 票 等 数据 。 

典型 的 查询 有 : 在 某 个 时 间 范 围 内 从 一 个 城市 到 另 一 个 城市 的 航班 ， 有 什么 样 的 舱位 ， 价 


格 如 何 。 典 型 的 数据 修改 包括 : 旅客 航班 预定 、 坐 席 分 配 或 注 明 饮 食 习 惯 等 。 在 任 一 给 定时 间 ， ， 


很 多 代理 机 构 将 访问 上 述 部 分 数据 。DBMS 必 须 允 许 这 样 的 并 发 存 取 ， 并 防止 两 个 代理 将 同一 
个 坐席 同时 分 配给 两 个 旅客 这 样 的 问题 发 生 。 当 系统 突然 发 生 故 障 时 还 要 保护 数据 不 丢失。 

银行 系统 

银行 系统 包括 的 数据 有 顾客 姓名 、 地 址 、 账 号 、 贷 款 、 余 额 ， 以 及 顾客 和 他 们 的 账号 与 
贷款 间 的 关联 ， 例 如 ， 谁 在 哪个 账号 上 有 签字 权 。 关 于 账目 余额 的 查询 是 最 常见 的 应 用 ， 但 更 
常见 的 应 用 是 修改 ， 表 现 为 对 某 个 账号 的 付款 或 存款 。 

如 同 在 飞机 订 票 系统 中 一 样 ， 人 们 期 望 很 多 出 纳 员 和 顾客 〈 通过 ATM 机 或 Web ) 能 即时 查 
询 和 修改 银行 数据 。 同 时 对 一 个 账号 的 访问 不 会 引起 事务 丢失 的 作用 也 极其 重要 。 故 障 是 不 能 
容忍 的 。 例 如 ， 一 旦 钱 已 从 ATM 机 中 弹出 ， 即 使 是 立即 发 生 电 源 断 电 ， 银 行 也 必须 记录 下 这 笔 
借方 账目 。 另 一 方面 ， 如 果 银 行 已 在 借方 记 账 ， 但 由 于 断 电 而 未 能 付款 ， 这 种 情况 也 是 不 允许 
的 。 处 理 这 类 操作 的 恰当 方法 并 不 那么 简单 ， 它 被 看 做 是 DBMS 方 式 的 优点 之 一 。 

公司 资料 /数据 

很 多 早期 的 应 用 涉及 公司 资料 /数据 ， 例 如 每 次 的 销售 记录 、 收 支 账 目 或 职工 信息 (如 
他 们 的 名 字 、 地 址 、 工 资 、 福 利 选择 、 缴 税 状况 ， 等 等 )。 查 询 应 用 包括 :打印 应 收 款项 、 
职工 每 周 的 薪金 。 每 次 销售 、 采 购 、 账 单 、 收 据 、 职 工 和 雇用、 辞退 及 晋升 等 ， 都 导致 数据 库 
的 修改 。 

早期 的 DBMS 是 从 文件 系统 发 展 而 来 ， 它 助长 用 户 用 接近 数据 的 方式 显现 数据 。 这 些 数据 
库 系统 使 用 多 个 不 同 的 数据 模型 描述 数据 库 中 的 信息 结构 ， 主 要 的 有 基于 树 结构 的 模型 、“ 层 
次 ”模型 和 基于 图 结构 的 “网 状 ”模型 。 网 状 模型 通过 CODASYL (数据 系统 及 语言 委员 会 ) 
的 报告 在 20 世 纪 60 年 代 未 被 标准 化 ?。 

早期 模型 和 系统 的 一 个 问题 是 它们 不 支持 高 级 查询 语言 。 例 如 ，CODASYL 查 询 语言 的 语 
名 只 允许 用 户 通过 指向 数据 元 素 的 指针 ， 从 一 个 数据 元 素 跳 到 另 一 个 数据 元 素 。 因 此 ， 即 使 是 
写 一 个 非常 简单 的 查询 程序 ， 用 户 也 要 花费 很 大 的 力气 。 
1.1.2 关系 数据 库 系 统 

随 着 1970 年 Ted Codd 著 名 论文 的 发 表 ®。 ， 数 据 库 系统 有 了 重大 的 改变 。Codd 提 出 数据 库 系 


统 应 该 将 数据 组 织 成 表 的 形式 呈现 给 用 户 。 这 种 形式 称 做 关系 ( relation )。 在 关系 的 后 面 ， 可 


© CODASYL “Data Base Task Group” April. 1971 报 告 ,ACM, New York. 
© Codd, E. 让,“ 大 量 共 享 数据 库 的 关系 模型 ” Comm. ACM 13:6 pp. 377-387, 


能 是 一 个 复杂 的 数据 结构 ， 实 现 对 各 种 查询 问题 的 快速 响应 。 但 是 ， 不 同 于 早期 数据 库 系 统 的 
用 户 ， 关 系 系统 的 用 户 将 不 必 关 心 数据 的 存储 结构 ， 查 询 可 以 用 非常 高 级 的 语言 表述 ， 因 此 可 
以 极 大 地 增加 数据 库 程序 员 的 工作 效率 。 

本 书 从 第 3 章 开始 介绍 基本 关系 概念 ， 书 中 的 大 部 分 内 容 也 都 与 关系 数据 模型 相关 。 从 第 6 
章 开始 将 介绍 SQL (“结构 化 查询 语言 ”)， 它 是 最 重要 的 基于 关系 模型 的 查询 语言 。 对 关系 的 


简要 介绍 ， 将 使 读者 对 该 模型 的 简洁 性 有 个 初步 了 解 ， 下 面 的 SQL 例 子 ， 也 将 使 读者 了 解 到 关 


系 模型 是 如 何 用 非常 高 级 的 语言 书写 查询 的 ， 从 而 绕 开 了 数据 库 “ 航 行 ” 的 细节 。 

例 1.1 关系 是 表 ， 它 的 列 以 属性 (attribute) 为 标题 ， 属 性 描述 列 中 的 项 。 例 如 ， 记 录 银 
行 账户 的 账号 、 余 额 和 类 型 的 Accounts 关 系 ， 其 结构 如 下 : 
accountNo | balance type 


12345 1000.00 | savings 
67890 2846.92 | checking 








这 里 列 标题 是 三 个 属性 : accountNo (IK), balance (RH) 和 type (类 型 )。 属性 
下 是 行 ， 或 称 做 元 组 (tuple )。 上 例 中 显示 出 了 两 个 元 组 值 ， 元 组 之 下 的 省 略 号 表示 还 有 更 多 
的 元 组 。 每 个 元 组 对 应 银行 中 的 一 个 账号 。 第 一 个 元 组 是 说 账号 12345 有 余额 1000.00 美 元 ， 它 
是 储蓄 型 账号 。 第 二 个 元 组 的 账号 是 67890， 其 余额 是 2846.92 美 元 ， 是 支票 型 账号 。 

假如 想 知道 账号 67890 的 余额 ， 可 以 用 SQL 查 询 如 下 、 

SELECT balance 


FROM Accounts 
WHERE accountNo = 67890; 


羽 一 个 例子 ， 查 询 所 有 余额 为 负 值 的 储蓄 账号 的 语句 是 ; 


SELECT accountNo 
FROM Accounts 
WHERE type = ’savings’ AND balance < 0; 


上 述 两 个 例子 并 不 足以 使 读者 成 为 一 个 SQL 专家 级 程序 员 。 但 是 ， 这 两 个 例子 表达 了 SQL 
语言 的 “select-from-where” 语 句 特征 。 原 则 上 ， 以 上 例子 要 求 DBMS 完 成 如 下 动作 : 

1. 检查 FROM 子 句 中 提 到 的 Accounts 关 系 的 所 有 元 组 ; 

2. 选 出 所 有 满足 WHERE 子 句 中 给 出 条 件 的 元 组 ; 

3. 从 选 出 的 元 组 中 ， 以 SELECT 子 句 指 明 的 属性 作为 查询 结果 。 

实践 中 ,系统 必须 “优化 ”查询 ， 寻 找 一 个 有 效 的 方法 回答 查询 ， 尽 管 查询 中 涉及 的 关系 
可 能 非常 大 。 J 


到 1990 年 ， 关 系数 据 库 系统 已 成 为 标准 。 但 是 ， 数 据 库 领域 继续 在 发 展 ， 数 据 管 理 的 新 课 
题 、 新 方法 不 断 出 现 。 本 节 后 续 部 分 将 讨论 数据 库 系统 的 某 些 新 趋势 。 
1.1.3 越 来 越 小 的 系统 

RH, DBMS 是 运行 在 大 型 计算 机 上 的 既 庞大 又 昂贵 的 软件 系统 。 因 为 存储 吉 字 节 
( gigabyte) 数据 需要 大 的 计算 机 系统 ， 所 以 大 容量 是 必需 的 。 如 今 ， 单 个 磁盘 的 容量 就 可 达 
若干 吉 字 节 ，DBMS 运 行 在 个 人 计算 机 上 已 成 为 可 能 。 因 此 ， 关 系 模型 数据 库 可 以 在 非常 小 的 
机 器 上 运行 。 而 且 ， 如 同 以 前 的 电子 表格 和 字 处 理 系 统 ， 关 系数 据 库 正在 成 为 计算 机 应 用 的 
普通 工具 。 
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1.1.4 越 来 越 大 的 系统 

另 一 方面 ， 吉 字 节 数据 量 还 不 够 大 。 一 个 公司 的 数据 库 常 常 有 几 百 吉 字 节 。 再 者 ， 存 储 器 
已 经 很 便宜 ， 人 们 也 就 更 有 理由 存储 更 大 量 的 数据 。 例 如 ， 零 售 连锁 店 常常 存储 太 字 节 
(terabyte，I 太 字 节 是 1000GB， 或 是 102B ) 信息 ， 记 录 长 时 间 内 每 一 笔 销售 业务 的 来 龙 去 脉 
(用 于 规划 库存 ， 对 此 将 在 1.1.7 节 中 作 进 一 步 讨论 )。 

更 进一步 ， 数 据 库 不 再 集中 于 存储 简单 数据 项 如 整数 或 短 字 符 串 ， 它 还 可 以 存储 图 像 、 声 
频 信息 、 视 频 信 息 和 其 他 很 多 种 数据 ， 这 些 数 据 通常 都 要 占用 相当 大 的 空间 。 例 如 ，1 个 小 时 
的 视频 信息 就 要 消耗 1GB。 数 据 库存 储 的 卫星 图 像 可 涉及 拍 字 节 ( petabyte， 即 1000TB ,或 
105B ) 数据 。 

管理 如 此 庞大 的 数据 库 需 要 多 种 先进 技术 。 譬 如， 如今 中 等 大 小 的 数据 库 都 存储 在 磁盘 组 
上 ， 这 种 磁盘 组 称 做 第 二 级 存储 器 (secondary storage device ， 此 名 称 是 与 内 存 相 比较 而 言 ， 
内 存 称 为 “ 主 ”存储 器 )。 人 们 可 能 要 问 ， 数 据 库 与 其 他 软件 究竟 有 何不 同 。 最 主要 的 不 同 是 
数据 库 系 统一 般 都 假定 数据 量 非 常 大 ， 数 据 不 能 存放 在 主 存 中 ， 主 要 是 存储 在 磁盘 上 。 下 面 介 
绍 的 两 种 技术 将 允许 数据 库 系统 更 快 地 处 理 大 量 数 据 。 

三 级 存储 器 

磁盘 已 不 能 满足 现代 最 大 型 数据 库 系统 的 需要 。 多 种 三 级 存储 器 设备 (tertiary storage 
device) 已 经 出 现 。 每 一 个 三 级 存储 设备 可 以 存储 太 字 节 数据 ， 但 是 它 比 磁盘 需要 更 长 时 间 存 
取 设 备 上 的 数据 。 典 型 的 磁盘 系统 需要 10~20 毫 秒 存 取 盘 上 数据 ， 而 三 级 存储 设备 将 需要 数秒 
钟 。 三 级 存储 设备 存 取 数 据 时 ， 要 将 存储 所 需 数 据 项 的 部 分 输送 到 一 个 读 取 设备 上 。 这 种 输送 
动作 通过 一 种 自动 机 器 传送 工具 完成 。 

例如 ，CD 或 DVD 都 可 以 作为 三 级 存储 设备 中 的 存储 介质 。 一 个 机 械 臂 安装 在 轨道 上 ， 存 
取 数 据 时 ， 机 械 辟 移动 到 某 个 特定 的 盘 上 ， 将 盘 举 起 ， 携 带 着 数据 移 到 读 出 器 ， 将 该 盘 装载 到 
读 出 器 上 。 

并 行 计 算 

虽然 存储 大 量 数据 的 能 力 很 重要 ， 但 是 若 不 能 快速 地 存 取 这 些 大 量 数据 ， 也 就 没有 什么 用 
处 。 因 此 ， 非 常 大 的 数据 库 也 需要 增强 其 处 理 速度 。 加 速 的 一 个 重要 手段 是 通过 索引 结构 ， 对 
此 将 在 1.2.2 节 提 及 。 另 外 一 个 可 以 在 给 定时 间 处 理 更 多 数据 的 方法 就 是 利用 并 行 方式 。 并 行 可 
以 用 各 种 方式 实现 。 

例如 ， 从 一 个 给 定 磁 盘 上 读 取 数 据 的 速度 是 相当 慢 的 ， 每 秒 钟 只 有 几 兆 字 节 ， 如 果 使 用 多 
个 磁盘 ， 并 且 并 行 地 读 ( 即使 数据 原本 在 三 级 存储 器 上 存储 ,在 被 DBMS 存 取 之 前 也 要 “贮存 ” 
到 磁盘 上 )， 就 能 加 速 处 理 。 这 些 磁盘 可 以 是 并 行 机 的 一 部 分 ， 或 者 是 分 布 式 系统 的 组 成 成 分 ， 
在 这 种 系统 中 有 很 多 机 器 ， 每 个 机 器 负责 一 部 分 数据 库 ， 当 需要 时 ， 信 息 在 这 些 机 器 组 成 的 网 
络 中 高 速 传输 。 

当然 ， 如 同 存储 大 量 数据 的 能 力 ， 快 速 移动 数据 的 能 力 本 身 并 不 能 保证 快速 响应 查询 。 
仍然 需要 利用 算法 将 查询 分 解 ， 以 便 能 允许 并 行 计算 机 ， 或 分 布 式 计算 机 网 络 有 效 地 使 用 所 
有 这 些 资源 。 于 是 ， 这 给 超大 数据 库 的 并 行 和 分 布 式 管理 的 研究 与 发 展 留 下 了 一 个 充满 活力 
的 领域 。 在 15.9 节 中 将 讨论 其 某 些 重要 的 思想 。 

1.1.5 客户 -服务 器 和 多 层 体系 结构 

很 多 各 种 现代 软件 都 使 用 客户 ~ 服务 器 (client-server) 体 系 结构 。 在 这 种 结构 中 ，- 个 处 理 

器 (客户 ) 的 请 求 被 送 到 另 一 个 处 理 器 (服务 器 ) 上 执行 。 数 据 库 系 统 也 不 例外 。 将 DBMS 的 





工作 分 成 服务 器 和 一 个 或 多 个 客户 处 理 器 处 理 的 方式 已 逐渐 普及 开 来 。 

在 最 简单 的 客户 /服务 器 体系 结构 中 ， 除 了 与 用 户 交 互 和 发 送 查 询 或 其 他 命令 到 服务 器 的 查 
询 界面 ， 整 个 DBMS 就 是 一 个 服务 器 。 例 如 ， 通 常 关系 型 系统 使 用 SQL 语言 表示 客户 到 服务 器 
的 请 求 。 然 后 ， 数 据 库 服务 器 用 表 或 关系 的 形式 将 结果 返回 给 客户 。 客 户 与 服务 器 间 的 联系 可 
以 很 复杂 ， 特 别 是 当 查 询 结果 的 数量 极其 巨大 时 更 是 如 此 。 这 个 问题 将 在 1.1.6 节 中 详细 讨论 。 

如 果 有 很 多 同时 访问 的 数据 库 的 用 户 ， 服 务 器 就 将 成 为 瓶颈 ， 因 此 也 有 一 种 倾向 是 将 更 多 
的 工作 放 在 客户 端 。 在 新 近 普 遍 采 用 的 系统 中 ， 数 据 库 被 用 来 为 Web 站 点 提供 动态 生成 信息 
( dynamically-generated content ) 时 ， 这 种 系统 将 两 层 ( 客户 -服务 器 ) 结构 转 为 三 层 (或 更 多 
E) 结构 。 这 时 ，DBMS 继 续 作 为 服务 器 ， 其 客户 端 则 成 为 一 个 典型 的 应 用 服务 器 
( application server )， 管 理 对 数据 库 的 连接 、 事 务 、 权 限 以 及 其 他 方面 的 工作 。 应 用 服务 器 本 
身 又 有 客户 端 ， 如 Web 服 务 器 ， 支 持 终端 用 户 或 其 他 应 用 。 

1.1.6 多 媒体 数据 

数据 库 系统 中 的 另 一 个 重要 趋势 是 多 媒体 数据 的 加 入 。“ 多 媒体 ”的 意思 是 指 表示 某 种 信 
号 的 信息 。 多 媒体 数据 形式 通常 包括 视频 、 音 频 、 雷 达 信号 、 卫 星 图 像 以 及 各 种 编码 的 文档 或 
图 片 。 这 些 形式 的 共同 点 是 它们 都 大 于 早期 的 数据 形式 一 如 整数 ， 定 长 字符 串 等 一 并且， 
它们 的 大 小 也 存在 很 大 的 差异 。 

多 媒体 数据 的 存储 迫使 DBMS 向 多 个 方向 扩展 。 例 如 ， 多 媒体 数据 的 操作 不 同 于 传统 数据 
形式 。 人 们 虽然 可 以 在 银行 数据 库 中 通过 银行 账户 余额 与 实数 0.0 比 较 ， 查 询 所 有 余额 为 负 值 
的 账号 ， 但 是 不 能 查询 图 像 数据 库 ， 寻 找 与 某 个 特定 形象 “看 起 来 相似 ”的 图 片 。 

为 了 人 允许 用 户 创建 和 使 用 复杂 的 数据 操作 ， 如 图 像 处 理 ，DBMS 必 须 提 供用 户 引 入 他 们 自 
己 选择 的 功能 的 能 力 。 这 类 扩展 常常 用 到 面向 对 象 技术 ， 在 关系 系统 中 ， 它 们 被 命名 为 “对 象 
关系 "。 面 向 对 象 数据 库 程序 设计 本 书 还 会 多 次 讨论 ， 包 括 第 4 章 和 第 9 章 。 

多 媒体 对 象 的 大 小 也 迫使 DBMS 修 改 存 储 管理 器 ， 以 便 能 处 理 吉 字 节 或 更 多 字 节 的 对 象 或 
元 组 。 在 如 此 巨大 的 数据 元 素 所 带 来 的 许多 问题 中 ， 查 询 结果 的 传送 是 其 中 之 一 。 通 常 关系 数 
据 库 的 查询 结果 是 元 组 集 ， 这 些 元 组 被 数据 库 服务 器 作为 一 个 整体 传送 到 客户 端 。 

可 是 ,假如 查询 的 结果 是 吉 字 节 长 的 视频 剪辑 ， 服 务 器 就 不 能 将 其 作为 一 个 整体 传送 给 客 
户 。 理 由 之 一 是 ， 这 样 做 需要 很 长 时 间 ， 从 而 使 服务 器 不 能 为 其 他 请 求 服务 。 另 一 个 理由 是 ， 
客户 可 能 只 是 想 要 电影 剪辑 的 一 小 部 分 ， 但 是 如 果 未 看 剪辑 的 起 始 部 分 又 无 法 确切 地 指明 需要 
的 部 分 。 第 三 个 理由 是 ， 即 使 客户 想 要 电影 的 整个 剪辑 ， 为 了 能 在 屏幕 上 放映 ， 那 也 需要 在 一 
个 小 时 内 按 某 个 固定 的 速度 传送 ( 1 小 时 是 放映 1GB 压 缩 视频 所 需 的 时 间 )。 因 此 ， 支 持 多 媒体 
数据 的 DBMS 存 储 系统 ， 必 须 以 交互 方式 提交 查询 结果 ， 也 就 是 根据 用 户 请 求 或 按照 一 个 固定 
速度 传送 一 小 块 查询 结果 到 客户 端 。 

1.1.7 信息 集成 

当 信息 已 成 为 人 们 工作 和 娱乐 的 基础 时 ， 人 们 发 现 原来 已 存在 的 信息 资源 有 了 新 的 使 用 方 
式 。 比 如 ,一 家 公司 想 要 为 其 产品 提供 联机 目录 ， 以 方便 用 户 利用 WWW 浏 览 产品 并 联机 定购 。 
通常 ， 一 家 大 公司 有 很 多 分 部 ， 每 个 分 部 可 能 已 经 独立 地 建立 了 自己 的 产品 数据 库 。 这 些 分 部 
可 能 使 用 的 是 不 同 的 DBMS ， 使 用 不 同 的 数据 结构 描述 信息 ， 甚 至 可 能 用 同一 术语 表示 不 同 的 
事物 ， 或 者 用 不 同 术 语 表示 相同 的 事物 。 

例 1.2 ”想像 一 家 有 多 个 部 门 的 磁盘 制作 公司 。 其 中 一 个 部 门 的 产品 目录 中 ， 转 速 以 转 数 
每 秒 为 单位 ,而 另 一 个 部 门 是 以 转 数 每 分 钟 为 单位 ， 还 可 能 有 为 外 一 个 部 门 根本 就 忽略 了 转速 。 





6 LF 





一 个 生产 软盘 的 部 门 可 能 将 软盘 称 为 “ 盘 "， 而 生产 硬盘 的 部 门 也 可 能 将 硬盘 称 为 “ 盘 "。 磁 道 
数 可 能 在 一 个 部 门 是 指 “ 磁 道 ”的 数目 ， 而 在 另 一 个 部 门 是 指 “ 圆 柱 面 ” 的 数目 ， 等 等 。 口 


中 央 控 制 方式 不 是 解决 问题 的 万 能 方法 。 各 个 部 门 可 能 在 认识 到 部 门 间 信 息 集 成 成 为 问题 
之 前 , 已 经 投资 了 大 量 资金 开发 自己 的 数据 库 。 一 个 部 门 也 可 能 是 最 近 刚 并 入 的 一 个 独立 公司 。 
为 了 这 些 或 其 他 原因 ， 难 于 取代 这 些 所 谓 的 遗留 数据 库 (legacy database )。 因 此 ， 公 司 必须 在 
这 些 遗 留 数据 库 的 顶层 构建 某 种 结构 ， 为 顾客 提供 一 个 公司 产品 的 统一 视图 。 

通常 解决 此 问题 的 方法 是 创建 数据 仓库 (data warehouse )， 通 过 合适 的 转换 技术 ， 将 来 自 
多 个 遗留 数据 库 的 信息 复制 到 一 个 中 央 数 据 库 。 随 着 遗留 数据 库 的 改变 ， 数 据 仓库 被 更 新 ， 但 
是 数据 仓库 的 更 新 并 不 一 定 要 同步 进行 。 解 决 更 新 问题 的 一 个 普遍 模式 是 每 天 晚上 ， 当 遗留 数 
据 库 不 太 忙 时 重新 构造 数据 仓库 。 

经 过 上 述 处 理 ， 遗 留 数 据 库 能 够 继续 为 公司 服务 。 新 的 功能 ， 诸 如 通过 WWW 提 供 一 个 联 
机 目录 服务 ， 是 在 数据 仓库 上 完成 的 。 另 外 ， 数 据 仓库 也 用 于 计划 和 分 析 。 例 如 ， 公 司 分 析 员 
可 以 在 数据 仓库 上 通过 查询 销售 趋势 ,更 好 地 计划 库存 和 生产 。 同 样 , 也 由 于 数据 仓库 的 建立 ， 
数据 挖掘 (data mining) 可 以 在 其 数据 中 寻找 有 价值 的 和 特殊 的 模式 ， 并 通过 利用 以 这 种 方式 
发 现 的 模式 ， 找 到 提高 销量 的 办 法 。 有 关 这 些 问 题 和 其 他 信息 集成 主题 将 在 第 20 章 中 讨论 。 


1.2 数据 库 管 理 系统 概述 


在 图 1-1 中 给 出 了 一 个 完整 的 DBMS 结 构 ， 其 中 单线 框 表示 系统 成 分 ， 双 线 框 表示 内 存 中 
的 数据 结构 ， 实 线 表 示 控 制 和 数据 流 ， 虚 线 只 表示 数据 流 。 由 于 图 很 复杂 ， 在 此 分 儿 个 步骤 来 
考虑 细节 。 首 先 ， 在 顶部 有 两 个 不 同 的 命令 源 将 命令 发 给 DBMS: 

1. 通常 的 用 户 和 应 用 程序 ， 发 出 查询 数据 或 修改 数据 命令 。 

2. 数据 库 管理 员 (database administrator )， 是 对 数据 库 结构 或 模式 (schema ) 负责 的 一 个 
人 或 一 批 人 。 
1.2.1 数据 定义 语言 命令 

第 二 种 命令 的 处 理 比 较 简单 ， 图 1-1 的 右上 方 显示 命令 行踪 的 开始 。 例 如 ， 大 学 注册 数据 
库 的 管理 员 或 DBA， 可 以 决定 该 数据 库 中 应 该 有 一 个 表 或 关系 。 其 中 的 列 有 学 生 ， 学 生 选 修 的 
课程 ， 以 及 学 生 取 得 的 课程 成 绩 。DBA 也 可 以 决定 ， 有 效 成 绩 只 能 是 A、B 、C、D 和 F。 这 些 
结构 和 约束 信息 都 是 数据 库 的 一 部 分 ， 在 图 1-1 中 显示 为 由 DBA 输 入 。 由 于 这 些 命令 能 深 深 地 
影响 数据 库 ， 所 以 DBA 具 有 特定 的 权限 去 执行 模式 修改 命令 。 模 式 修改 DDL 命 令 (“DDL” 代 
表 “ 数 据 定义 语言 ") 由 DDL 处 理 嚣 分析， 并且 传送 给 执行 引擎 ， 执 行 引擎 然后 通过 索引 /文件 / 
记录 管理 器 去 修改 元 数据 (metadata )， 也 就 是 数据 库 的 模式 信息 。 
1.2.2 查询 处 理 概述 

与 DBMS 交 互 最 主要 的 工作 是 沿 着 图 1-1 左 边 的 路 径 。 用 户 或 应 用 程序 启动 某 个 不 影响 数 
据 库 模 式 的 操作 ， 但 是 这 些 操作 可 能 会 影响 数据 库 的 内 容 ( 如 果 是 修改 操作 )， 或 者 是 从 数据 
库 中 抽取 数据 〈 如 果 是 查询 操作 )。1.1 节 中 已 指出 ， 表述 这 些 命令 的 语言 称 做 数据 操作 语言 
( DML )， 或 口语 化 地 称 做 查询 语言 。 有 多 种 数据 操作 语言 ， 在 例 1.1 中 使 用 的 SQL 是 如 今 最 广 
泛 使 用 的 语言 。DML 语 言 由 两 个 独立 的 子 系统 处 理 ， 有 关 这 两 个 系统 的 叙述 如 下 。 

查询 处 理 

查询 通过 查询 编译 器 ( query compiler) 完成 语法 分 析 和 优化 。 编 译 的 结果 是 查询 计划 
(query plan ) 或 是 由 DBMS 执 行 并 获得 查询 结果 的 操作 序列 ， 它 们 将 被 送 到 执行 引 # (execution 
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engine )。 执 行 引擎 向 资源 管理 器 发 出 一 系列 获取 小 块 数据 的 请 求 ， 典 型 的 小 块 数据 是 关系 的 记 
录 或 元 组 。 资 源 管理 器 知道 数据 文件 ( data fle， 存 放 关系 的 文件 )、 数 据 文 件 的 格式 和 记录 大 
小 和 索引 文件 (index file )， 这 些 对 于 快速 从 数据 文件 中 找到 相应 数据 元 素 是 有 用 的 。 


用 户 /应 用 程序 数据 库 管理 员 
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图 1-1 数据 库 管理 系统 组 成 


数据 请 求 被 转换 成 页 请 求 ， 页 请 求 又 被 传送 给 缓冲 区 管理 器 ( buffer manager )。1.2.3 节 将 
讨论 缓冲 区 管理 器 ， 但 是 简单 说 来 ， 它 的 任务 是 从 永久 保存 数据 的 二 级 存储 器 ( 通常 是 磁盘 ) 
中 获取 数据 送信 主 存 缓冲 区 中 。 一 般 地 ， 页 或 “磁盘 块 ”是 缓冲 区 和 磁盘 间 的 传送 单位 。 

为 了 从 磁盘 中 得 到 数据 ， 缓 冲 区 管理 器 与 存储 器 管理 器 通信 。 存 储 器 管理 器 可 能 包含 操作 
系统 命令 ， 但 是 更 典型 的 是 DBMS 直 接 向 磁盘 控制 器 发 命令 。 

事务 处 理 

查询 或 其 他 DML 操 作 被 组 织 成 事务 (transaction )。 事 务 是 必须 原子 性 执行 的 单位 ， 执 行 
中 的 事务 之 问 还 必须 互相 隔离 。 常 常 一 个 查询 或 修改 操作 本 身 就 是 一 个 事务 。 另 外 ， 事 务 的 执 
行 必 须 持 久 〈durable )， 也 就 是 说 任何 已 完成 事务 的 作用 必须 被 保持 ， 即 使 是 事务 刚刚 完成 时 
系统 就 出 现 某 种 故障 也 应 如 此 。 事 务 处 理 器 被 分 成 两 个 主要 部 分 ， 

1. 并 发 控制 管理 器 (concurrency-control manager )， 或 调度 器 ( scheduler )， 保 证 事务 的 原 
PERMO: 

2 BS Clogging) AURA ERE (recovery manager )， 负 责 事务 的 持久 性 。 1.2.4 节 中 将 进 
一 步 讨论 这 两 个 部 分 。 
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12.3 存储 器 和 缓冲 区 管理 器 

数据 库 数据 平常 存储 在 二 级 存储 器 中 。 今 天 的 计算 机 系统 中 “二 级 存储 器 ”一 般 指 磁盘 。 
可 是 ， 对 数据 的 操作 只 能 在 主 存 中 执行 。 存 储 器 管理 器 ( storage manager) 的 任务 就 是 控制 数 
据 在 磁盘 上 的 位 置 存 放 和 在 磁盘 与 主 存 间 的 移动 。 

在 一 个 简单 数据 库 系统 中 ， 存 储 器 管理 器 可 以 就 是 操作 系统 下 的 文件 系统 。 可 是 ， 为 了 有 
效 性 ，DBMS 常 常 直接 控制 磁盘 上 的 存储 ， 至 少 是 在 某 些 环 境 下 如 此 。 存 储 器 管理 器 跟踪 磁盘 
上 的 文件 位 置 , 根据 请 求 从 缓冲 区 管理 器 中 获取 含有 请 求 文件 的 一 个 或 多 个 磁盘 块 。 回 忆 一 下 ， 
磁盘 通常 被 分 成 磁盘 块 〈disk blocks )， 块 是 含有 大 量 字 节 的 连续 存储 区 域 ， 其 大 小 可 以 是 22 
或 24 ( 大 约 4 000 到 16 000 字 节 )。 

缓冲 区 管理 器 负责 把 可 用 主 存 分 割 成 缕 冲 区 (buffer )， 缓 冲 区 是 包含 若干 个 页 面 的 区 域 ， 
其 中 可 以 传输 磁盘 块 。 于 是 ， 所 有 需要 从 磁盘 中 获取 信息 的 DBMS 组 件 ， 或 是 直接 ， 或 是 通过 
执行 引擎 的 方式 ， 与 缓冲 区 和 缓冲 区 管理 器 交互 。 各 个 组 件 可 能 需要 的 信息 种 类 有 : 

1. 数据 : 数据 库 本 身 的 内 容 。 

2. 元 数据 :描述 数据 库 结构 的 数据 模式 和 数据 库 上 的 语义 限制 。 

3. 统计 数据 : 由 DBMS 收 集 和 存储 的 关于 数据 特征 的 数据 。 例 如 ， 数 据 库 大 小 ,数据 库 中 
的 值 ， 数 据 库 中 的 各 种 关系 和 其 他 成 分 。 

4. 索引 : 支持 对 数据 库 中 数据 有 效 存 取 的 数据 结构 。 

有 关 缓 冲 区 管理 器 ， 以 及 它 的 任务 与 角色 的 更 完全 讨论 ， 将 在 15.7 节 中 给 出 。 

1.2.4 事务 处 理 

通常 将 一 个 或 一 组 数据 库 操作 组 成 一 个 事务 。 事 务 的 执行 满足 原子 性 ,并 且 与 其 他 事务 的 
执行 互相 隔离 。 另 外 ，DBMS 还 要 保证 事务 的 持久 性 : 已 完成 事务 的 工作 永 不 丢失 。 事 务 管理 
és (transaction manager ) 接收 来 自 应 用 的 事务 命令 (transaction command )， 这 些 命令 告诉 事 
务 管理 器 事务 何 时 开始 , 何 时 结束 , 以 及 应 用 期 望 的 信息 (例如 , 某 些 应 用 可 能 不 需要 原子 性 )。 
事务 处 理 器 执行 如 下 一 些 任务 : 

1. 记 日 志 : 为 了 保证 持久 性 ,数据 库 的 每 一 个 变化 都 记录 在 单独 的 磁盘 上 。 日 志 管理 器 
(log manager ) 遵循 一 种 设计 原则 ， 无 论 何 时 系统 出 现 故 障 或 “ 朋 溃 ”"， 恢 复 管理 器 都 能 够 通过 
检查 日 志 中 的 修改 记录 ， 把 数据 库 恢 复 到 某 个 一 致 状态 。 日 志 管理 器 先 把 日 志 写 人 缓冲 区 ， 然 
后 与 缓冲 区 管理 器 协商 以 确保 缓冲 区 在 合适 的 时 间 被 写 人 磁盘 ( 磁盘 中 的 数据 可 以 在 系统 贿 演 
后 幸存 下 来 )。 . 

2. 并 发 控制 (concurrency control): 事务 必须 表现 为 以 孤立 的 方式 执行 。 但 是 在 大 多 数 系 
统 中 ， 很 多 事务 都 是 同时 在 执行 。 因 此 ， 调 度 器 (并 发 控制 管理 器 ) 必须 保证 ， 多 个 事务 的 单 
个 动作 是 按 某 个 顺序 在 执行 ， 由 此 获得 的 效果 应 该 与 系统 一 次 只 执行 一 个 事务 一 样 。 典 型 的 调 
度 器 是 通过 对 数据 库 的 某 些 片段 加 镇 〈1lock ) 的 方式 工作 。 锁 将 防止 两 个 以 有 害 方式 交互 的 事 
务 对 同一 数据 片段 的 存 取 。 如 图 1-1 所 示 ， 锁 通常 保存 在 主 存 的 锁 表 (lock table) 中 ,调度 器 
通过 阻止 执行 引擎 存 取 加 锁 数 据 ， 来 影响 查询 和 其 他 数据 库 操作 。 

3. 消除 死 锁 (deadlock resolution )， 当 事务 通过 调度 器 授权 锁 竞 争 资源 时 ， 它 们 可 能 会 陷 
入 一 种 状态 ， 由 于 每 个 事务 需要 的 资源 都 被 另 一 个 事务 占有 ， 没 有 一 个 事务 能 够 继续 执行 。 此 
时 ， 事 务 管理 器 的 任务 是 进行 干 御 ， 并 删除 (“ 回 滚 ” 或 “终止 ” ) 一 个 或 多 个 事务 ， 以 便 其 他 
事务 可 以 继续 执行 。 





事务 的 ACID 性 质 


正确 执行 的 事务 通常 被 说 成 符合 “ACID 测试 ”>， 这 里 : 
。“A” 表 示 “ 原 子 性 ”; 事务 的 操作 要 么 全 部 被 执行 ， 要 么 全 部 不 被 执行 。 
。 “IJ” 表 示 “ 独 立 性 ”， 每 个 事务 的 执行 必须 显现 为 如 同 没 有 其 他 事务 在 同时 执行 。 


。“D” 表 示 “ 持 久 性 ”， 一 旦 事务 已 经 完成 ， 则 该 事务 对 数据 库 的 影响 就 永远 不 会 消失 。 

剩 下 的 字母 “C” 表 示 “ 一 致 性 "。 也 就 是 说 ， 所 有 数据 库 中 数据 元 组 之 间 的 联系 具 
有 一 致 性 限制 ， 或 说 满足 一 致 性 期 望 ( 例 如， 账户 余额 不 能 是 负数 )。 要 求 事务 保持 数据 
库 的 一 致 性 。 在 第 7 章 中 将 讨论 数据 库 模式 中 的 一 致 性 限制 表述 。 在 18.1 节 开始 讨论 
DBMS 如 何 维 护 一 致 性 。 


1.2.5 查询 处 理 器 

用 户 可 以 见 到 的 最 影响 系统 性 能 的 DBMS 部 分 是 查询 处 理 器 ( query processor )。 图 1-1 中 
查询 处 理 器 用 两 个 组 件 表示 : 

1. 查询 编译 器 ” 它 把 查询 转换 成 称 做 查询 计划 的 内 部 形式 。 查 询 计划 是 在 数据 上 的 操作 序 
列 。 通 常 ， 查 询 计划 中 的 操作 用 “关系 代数 ”运算 实现 。5.2 节 将 讨论 关系 代数 。 查 询 编译 器 
主要 由 三 个 模块 组 成 ， 

(a) 查询 分 析 器 (query parser) 查询 分 析 器 是 从 查询 的 文本 结构 中 构造 一 个 查询 树 结构 。 

(b) 查询 预 处 理 器 (query preprocessor) ”查询 预 处 理 器 对 查询 作 语 义 检 查 ( 例如 ， 保 
证 查询 中 提 到 的 关系 已 确实 存在 )， 并 且 将 查询 语法 树 转换 成 表示 初始 查询 计划 的 代数 操作 
符 树 。 

(c) 查询 优化 器 (query optimizer) ”查询 优化 器 将 查询 初始 计划 转换 成 在 实际 数据 上 执行 
最 有 效 的 操作 序列 。 

查询 编译 器 使 用 关于 数据 的 元 数据 和 统计 数据 以 确定 哪 种 操作 序列 最 快 。 例 如 ， 索 引 是 一 
种 特殊 的 便于 数据 存 取 的 数据 结构 ， 如 要 索引 存在 ， 并 且 给 定 索引 数据 项 值 ， 则 利用 索引 的 查 
询 计 划 将 比 其 他 计划 更 快 。 

2. 执行 引擎 (execution engine) ”执行 引擎 负责 执行 选 定 查询 计划 的 每 一 步 。 执 行 引擎 与 
DBMS 中 的 其 他 大 多 数组 件 直 接地 或 通过 缓冲 区 交互 。 为 了 操作 数据 ， 它 必须 从 数据 库 中 将 数 
据 取 到 缓冲 区 ， 必 须 与 调度 器 交互 以 避免 存 取 已 加 锁 的 数据 ， 它 还 要 与 日 志 管 理 器 交互 以 确保 
所 有 数据 库 的 变化 都 被 日 志 正 确 地 记录 下 来 。 


1.3 数据 库 系统 研究 概述 


有 关 数 据 库 系统 的 研究 被 分 成 三 大 类 : 

1, 数据 库 设 计 ”研究 如 何 开 发 一 个 有 用 的 数据 库 ? 将 什么 样 的 信息 送 入 数据 库 ? 信息 组 织 
是 怎样 的 ? 对 数据 项 的 类 型 或 值 有 何 假定 ”数据 项 之 间 如 何 连 接 ? 

2. 数据 库 程 序 设计 ”研究 如 何在 数据 库 上 表述 查询 和 其 他 操作 ? 如 何在 应 用 中 使 用 事务 或 
约束 等 DBMS 的 其 他 功能 ? 数据 库 程序 设计 如 何 与 普通 程序 设计 相 结合 ? 

3. 数据 库 系 统 实现 ”研究 如 何 建立 一 个 DBMS， 包 括 查 询 处 理 ， 事 务 处 理 和 高 效 访问 的 存 
储 组 织 ? 
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如 何 实现 索引 
读者 可 能 在 数据 结构 课程 中 已 知 ， 散 列表 是 建立 索引 的 非常 有 效 的 方法 。 早 期 
DBMS 确 实 广泛 使 用 散 列 表 。 今 天， 最 通用 的 数据 结构 称 做 B- 树 ,，“B” 的 意思 是 “平衡 ”。 
B- 树 是 平衡 二 又 查询 树 的 推广 ， 一 棵 二 叉 树 的 每 个 节点 的 子 节 点 可 以 多 达 两 个 ， 而 B- 树 
的 节点 数 可 以 包含 大 量 的 子 节点 。 已 知 的 B- 树 通常 驻 留 在 磁盘 上 而 不 是 主 存 中 ，B- 树 的 


一 个 节点 占据 整个 一 个 磁盘 块 。 由 于 一 般 系 统 使 用 的 磁盘 块 是 22B ( 4096B ) 数量 级 ，B- 
树 的 一 块 可 以 容纳 几 百 个 指针 ， 因 此 ，B- 树 查询 涉及 的 树 层次 很 少 。 

一 般 磁 盘 操作 的 开销 与 存 取 磁 盘 的 块 数 成 正比 。 由 于 B- 树 典型 查询 只 涉及 几 个 磁 益 
决 ， 二 又 树 的 节点 驻 留 在 很 多 不 同 磁盘 块 中 ， 所 以 B- 树 查询 比 二 又 树 查询 要 快 得 多 。 那 
些 最 送 于 磁盘 存储 的 数据 结构 和 适 于 主 存 中 运行 的 算法 的 数据 结构 有 多 处 不 同 ，B- 树 与 
二 又 树 查询 之 间 的 差别 是 其 中 之 一 。 


1.3.1 数据 库 设 计 

第 2 章 首 先 给 出 了 表述 数据 库 设计 的 高 层 表 示 法 ， 称 为 实体 联系 模型 ( entity-relationship 
model )。 第 3 章 介 绍 关系 模型 ， 这 是 目前 流行 DBMS 采 用 的 模型 ，1.1.2 节 中 对 此 已 有 非常 简单 
的 介绍 。 另 外 将 介绍 如 何 把 实体 -联系 设计 转换 为 关系 设计 ， 或 “关系 数据 库 模 式 ”。 在 6.6 节 ， 
将 展现 如 何 把 关系 数据 库 模 式 用 SQL 语言 的 数据 定义 语句 写 出 。 

第 3 章 还 为 读者 介绍 “函数 依赖 ”概念 ， 这 些 依赖 在 形式 上 被 表述 为 关系 中 对 元 组 之 间 的 
联系 的 假设 。“ 函数 依赖 ”使 我 们 通过 关系 “规范 化 ”处 理 ， 可 以 改进 关系 数据 库 设计 。 

第 4 章 介绍 面向 对 象 数据 库 设 计 方 法 。 将 介绍 ODL 语 言 ， 该 语言 允许 用 户 以 高 层次 的 面向 
对 象 方式 描述 数据 库 。 我 们 也 要 考察 ， 面 向 对 象 设计 已 经 与 关系 模型 相 结 合 ， 产 生 了 所 谓 “ 对 
象 - 关系 ”模型 。 最 后 ， 第 4 章 还 介绍 特别 灵活 的 数据 库 模型 ， 即 “ 半 结 构 化 数据 ”( semistru- 
ctured data )， 同 时 也 可 以 看 到 它 被 具体 化 为 文本 语言 XML 。 

1.3.2 数据 库 程序 设计 

从 第 5 章 到 第 10 章 都 是 讨论 数据 库 程序 设计 。 第 5 章 从 关系 模型 查询 抽象 化 处 理 开 始 ， 引 入 
关系 上 的 操作 符 集 ， 形 成 了 “关系 代数 ”。 

第 6 章 到 第 8 章 介绍 SQL 程 序 设计 。 正 如 已 经 提 到 的 ，SQL 是 当今 主要 查询 语言 。 第 6 章 介 
绍 SQL 中 关于 查询 的 基本 思想 和 SQL 中 数据 库 模 式 的 表达 。 第 7 章 介 绍 SQL 中 对 数据 的 约束 条 
件 和 触发 器 。 

第 8 章 介绍 SQL 程序 设计 的 某 些 高 级 内 容 。 首 先 ， 虽 然 SQL 程 序 设 计 的 最 简单 方式 是 独立 
的 、 通 用 的 查询 界面 ， 但 实际 上 ， 大 多 数 SQL 程 序 设计 是 嵌 人 在 一 个 更 大 程序 中 ， 这 个 程序 用 
传统 的 程序 设计 语言 编写 ， 诸 如 C。 第 8 章 中 学 习 如 何 将 SQL 语句 与 一 个 主 程序 连接 ， 如 何 将 数 
据 库 数据 传 给 程序 变量 以 及 相反 的 过 程 。 本 章 还 介绍 如 何 使 用 SQL 的 事务 说 明 特 性 连接 客户 到 
服务 器 ， 如 何 授权 用 户 对 数据 库 数 据 的 访问 。 

第 9 章 转 和 人 介绍 面向 对 象 数据 库 程 序 设计 的 标准 语言 。 这 里 考虑 两 个 方面 : 第 一 ，OQL 
(对 象 查询 语言 )， 这 种 语言 可 以 看 做 是 使 C++， 或 其 他 面向 对 象 程序 设计 语言 ， 与 高 层 的 数据 
库 程 序 设计 相 容 的 一 种 尝试 。 第 二 ， 也 是 目前 在 SQL 标准 中 采纳 的 面向 对 象 特征 ， 可 以 看 做 是 
试图 使 关系 数据 库 和 SQL 与 面向 对 象 程 序 设 计 相 匹配 。 

最 后 ， 第 10 章 又 回 到 第 5 章 中 开始 的 抽象 查询 语言 的 研究 。 研 究 基 于 逻辑 的 语言 ， 并 且 看 
它 如 何 被 用 于 扩展 现代 SQL 的 能 力 。 
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1.3.3 数据 库 系 统 实现 

本 书 第 三 部 分 是 关于 DBMS 实 现 。 数 据 库 系统 的 实现 可 以 粗略 地 分 成 三 部 分 。 

1. 存储 器 管理 ( storage management): 研究 二 级 存储 器 的 有 效 存 储 数据 和 快速 访问 技术 。 

2. 查询 处 理 : 研究 用 高 级 语言 (如 SQL ) 表述 的 查询 如 何 能 有 效 地 执行 。 

3. 事务 管理 : 研究 如 何 支持 事务 的 ACID 性 质 。 

本 书 中 将 分 别 用 几 个 章节 的 篇 幅 对 上 述 每 一 个 问题 进行 讨论 。 
存储 器 管理 概述 

第 11 章 中 引入 了 存储 的 层次 结构 。 但 是 因为 二 级 存储 器 ， 特 别 是 磁盘 ， 是 DBMS 管 理 数 据 
的 主要 方式 ， 所 以 对 磁盘 上 数据 的 存储 和 存 取 方式 给 出 了 特别 详细 的 描述 。 书 中 引信 了 基于 磁 
盘 数 据 的 “ 块 模型 (block model ”， 这 个 模型 几乎 对 数据 库 系统 中 的 每 个 部 分 都 有 影响 。 

第 12 章 是 关于 数据 元 素 存 储 对 数据 块 模型 的 需求 分 析 。 这 里 数据 元 素 指 关系 、 元 组 、 属 性 
值 和 在 其 他 数据 模型 中 与 它们 对 应 的 数据 项 。 然 后 ， 讨 论 用 于 构造 索引 的 重要 数据 结构 ， 索 引 
是 支持 数据 做 有 效 访问 的 数据 结构 。 第 13 章 中 讨论 重要 的 一 维 索 引 结 构 一 一 顺序 索引 文件 、B- 
树 和 散 列 表 。 这 些 都 是 DBMS 中 常用 的 索引 ， 它 们 支持 查找 满足 某 个 给 定 属 性 值 的 元 组 的 查询 要 
求 。B- 树 用 于 存 取 已 按 某 个 属性 值 排序 的 关系 。 第 14 章 讨论 多 维 索引 ， 这 类 索引 支持 一 些 专用 
数据 结构 ， 如 地 理 数据 库 ， 其 典型 的 查询 是 查找 某 个 区 域内 的 信息 内 容 。 这 些 索引 结构 也 支持 
具有 两 个 或 多 个 属性 值 限 制 的 复杂 SQL 查询 ， 目 前 商用 DBMS 中 已 经 开始 出 现 某 些 这 样 的 结构 。 
查询 处 理 概述 

第 15 章 讨论 查询 执行 的 基本 内 容 。 将 研究 多 个 有 效 实现 关系 代数 操作 的 算法 。 这 些 算法 对 
磁盘 数据 很 有 效 ， 在 某 些 情 帝 下 ， 它 们 与 主 存 数据 的 同类 算法 很 不 同 。 

第 16 章 考虑 查询 编译 和 优化 的 体系 结构 。 先 从 查询 的 语法 分 析 和 语义 检查 开始 ， 然 后 ， 考 
虑 将 查询 从 SQL 转换 到 关系 代数 ， 以 及 逻辑 查询 计划 (logical query plan) 选择 。 逻 辑 查询 计 
划 表 示 在 数据 上 执行 的 操作 的 代数 表达 式 ， 以 及 必要 的 操作 顺序 约束 。 最 后 ， 实 施 物 理 查询 计 
X) ( physical query plan) 选择 。 物 理 查 询 计划 给 出 了 特定 的 操作 序列 ， 以 及 用 于 实现 每 个 操作 
的 算法 。 
事务 处 理 概述 

第 17 章 中 讨论 DBMS 如 何 支持 事务 的 持久 性 。 其 中 心思 想 是 把 数据 库 的 所 有 变化 都 记录 在 
日 志 上 。 当 系统 崩溃 时 ( 比如 当 系 统 断 电 时 )， 任 何在 主 存 但 不 再 磁盘 上 的 信息 都 被 丢失 。 因 
此 ， 必 须 仔 细 地 按 某 种 次 序 将 记录 了 数据 库 改 变 的 日 志 从 缓冲 区 移 到 磁盘 。 有 多 个 可 用 的 日 志 
策略 ， 但 是 每 一 种 策略 都 不 同 程度 地 对 操作 带 来 一 定 的 约束 。 

然后 ， 在 第 18 章 中 讨论 并 发 控制 一 一 保证 事务 的 原子 性 和 独立 性 。 事 务 是 读 或 写 数据 库 元 
素 的 操作 序列 。 该 章 的 主要 内 容 是 讨论 如 何 管理 数据 库 元 素 上 的 锁 : 可 以 使 用 不 同类 型 的 锁 ， 
事务 以 何 种 方式 获取 与 释放 数据 元 素 上 的 锁 。 另 外 ， 还 要 研究 几 种 不 用 锁 也 能 保证 事务 原子 性 
和 独立 性 的 方法 。 

第 19 章 是 关于 事务 处 理 研 究 的 总 结 。 讨 论 第 17 章 中 给 出 的 日 志 技 术 需 求 与 第 18 章 中 给 出 
的 并 发 需求 之 间 的 相互 作用 。 并 发 控制 管理 的 另 一 个 重要 课题 -一 死 锁 处 理 也 在 本 章 中 讨论 。 
第 19 章 还 要 讨论 并 发 控制 在 分 布 式 环境 下 的 扩展 。 最 后 ， 讨 论 引 入 “长 事务 ”的 可 能 性 。 所 
谓 “ 长 ”事务 ， 是 说 事务 的 执行 时 间 不 是 几 毫 秒 ， 而 是 要 几 小 时 或 几 天 。 长 事务 对 数据 加 锁 ， 
将 在 使 用 该 数据 的 其 他 用 户 之 间 引起 混乱 ， 因 此 ， 扎 使 研究 者 对 涉及 长 事务 应 用 的 并 发 控制 
有 新 的 思考 。 
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1.3.4 信息 集成 概述 

数据 库 系统 的 很 多 最 新 发 展 趋向 是 允许 不 同 数据 源 (data source )， 可 以 是 数据 库 和 /或 不 
由 DBMS 管 理 的 信息 源 ， 一 起 作为 一 个 整体 工作 。 对 此 在 1.1.7 节 中 已 有 简单 的 介绍 。 本 书 最 后 
一 章 , 第 20 章 ,将 研究 信息 集成 的 某 些 重要 内 容 。 讨 论 集 成 的 基本 方法 ,包括 称 做 “数据 仓库 ” 
的 经 转换 的 和 集成 的 数据 源 副 本 ， 以 及 通过 “协调 器 ”收集 的 数据 源 虚 拟 “ 视 图 ”集合 。 


1.4 小 结 


。 数 据 库 管 理 系统 : DBMS 的 特征 ， 是 支持 可 以 长 期 保存 的 大 量 数据 有 效 存 取 的 能 力 ， 支 
持 强 有 力 的 查询 语言 和 按 原子 性 和 与 其 他 事务 独立 的 方式 并 发 执行 的 持久 事务 能 力 。 

“与 文件 系统 比较 : 因为 文件 系统 不 能 支持 有 效 查找 ， 不 支持 对 小 片 数据 的 有 效 修改 ， 不 
支持 复杂 查询 ， 也 不 支持 主 存 中 有 用 信息 的 缓冲 控制 以 及 事务 的 原子 性 和 独立 执行 ， 所 
以 ， 通 常 的 文件 系统 不 适宜 作 数据 库 系 统 。 

“关系 数据 库 系 统 ; 今天 ， 大 多 数 数据 库 系统 基于 关系 数据 模型 ， 这 种 模型 将 数据 组 织 成 
表 ，SQL 是 这 些 系 统 中 最 常 使 用 的 语言 。 

。 二 级 和 三 级 存储 器 : 大 的 数据 库 是 存储 在 二 级 存储 器 设备 上 ， 通 常 是 在 磁盘 上 。 最 大 的 
数据 库 需 要 三 级 存储 器 设备 ， 它 的 容量 比 磁盘 要 高 几 个 数量 级 ， 但 是 它 的 速度 也 要 比 磁 
盘 慢 几 个 数量 级 。 

“客户 -服务 器 系统 : 数据 库 管理 系统 一 般 支 持 客户 -服务 器 体系 结构 ， 数 据 库 的 主要 部 分 
是 在 服务 器 上 ， 客 户 机 用 于 对 用 户 提供 界面 。 

“未 来 系统 : 数据 库 系 统 的 主要 趋势 ， 一 是 支持 非常 大 的 “多 媒体 ”对 象 ， 如 视频 或 图 像 。 
另外 是 将 来 自 多 个 独立 的 信息 源 信息 集成 为 单个 数据 库 。 

“数据 库 语言 : 介绍 了 定义 数据 结构 的 语言 或 语言 成 分 (数据 定义 语言 )， 以 及 数据 查询 和 
更 新 语言 (数据 操作 语言 )。 

“DBMS 组 成 : 数据 库 管 理 系统 的 主要 组 成 是 存储 器 管理 器 、 查 询 处 理 器 和 事务 管理 器 。 

“存储 器 管理 器 : 该 部 件 的 责任 是 存储 数据 、 元 数据 ( 关于 数据 模式 或 结构 的 信息 )、 索 引 
( 加 速 数 据 存 取 的 数据 结构 ) 和 日 志 (记录 数据 库 变 化 )。 这 些 数据 结构 被 保存 在 磁盘 上 。 
存储 器 管理 器 的 重要 部 分 是 缓冲 区 管理 器 ， 该 管理 器 在 主 存 中 保存 部 分 磁盘 内 容 。 

“查询 处 理 器 : 该 部 件 分 析 查 询 ， 通 过 选择 查询 执行 计划 优化 查询 ， 然 后 在 存储 数据 上 执 
行 选择 的 查询 计划 。 

“事务 处 理 器 : 该 部 件 负责 记录 数据 库 的 变化 的 日 志 ， 以 支持 系统 故障 后 的 恢复 。 它 也 能 
保证 并 发 事务 执行 的 原子 性 (事务 或 是 完全 执行 ， 或 是 完全 不 执行 ) 和 和 孤立 性 ( 事务 执 
行 时 如 同 不 存在 其 他 并 发 执行 的 事物 )。 


1.5 参考 文献 


当前 ， 联 机 可 查询 的 目录 基本 覆盖 了 所 有 关于 数据 库 系 统 的 最 新 文章 。 因 此 ， 本 书 并 不 试 
图 给 出 完全 的 引述 ， 但 是 将 给 出 历史 上 重要 的 文章 和 主要 的 辅助 文献 或 有 用 的 综述 。Michael 
Ley[5] 已 给 出 了 可 查找 的 数据 库 研究 论文 的 索引 。AlfChristian Achilles 维 护 了 一 个 与 数据 库 领 
域 有 关 的 可 查找 的 索引 目录 [1]。 

有 很 多 对 数据 库 领域 技术 有 贡献 的 原型 实现 ， 其 中 最 有 名 的 两 个 是 IBM Almaden 研 究 中 心 
的 System R 项 目 [3] 和 伯克利 大 学 的 INGRES 项 目 [7]。 它 们 都 是 早期 的 关系 系统 ， 并 且 使 此 类 系 
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统 成 为 主流 数据 库 技 术 。 许 多 使 数据 库 领域 定形 的 研究 文章 可 在 文献 [6] 中 找到 。 
1998 年 的 “Asilomar 报告 ”[4] 是 关于 关系 数据 库 系 统一 系列 研究 和 指导 报告 中 最 新 的 一 
份 。 它 也 引用 了 早期 的 这 类 报告 。. 
从 文献 [2]、[8] 和 [9] 中 可 以 发 现 比 这 里 提 到 的 更 多 关于 数据 库 的 理论 。 


1. 
2. 


http://liinwww.ira.uka.de/bibliography/Database . 


Abiteboul, S., R. Hull, and V. Vianu, Foundations of Databases, Addison- 
Wesley, Reading, MA, 1995. 


. M. M. Astrahan et al., “System R: a relational approach to database 


management,” ACM Trans. on Database Systems 1:2 (1976), pp. 97-137. 


. P. A. Bernstein et al, “The Asilomar report on database research,” 


http://s2k-ftp.cs.berkeley.edu:8000/postgres/papers/Asilomar_ 
Final.htm. 


- http://www .informatik.uni-trier.de/~ley/db/index.html. A mir- 


ror site is found at http: //www.acm.org/sigmod/dblp/db/index. html. 


. Stonebraker, M. and J. M. Hellerstein (eds.), Readings in Database Sys- 


tems, Morgan-Kaufmann, San Francisco, 1998. 


. M. Stonebraker, E. Wong, P. Kreps, and G. Held, “The design and im- 


plementation of INGRES,” ACM Trans. on Database Systems 1:3 (1976), 
pp. 189-222. 


. Ullman, J. D., Principles of Database and Knowledge-Base Systems, Vol- 


ume I, Computer Science Press, New York, 1988. 


. Ullman, J. D., Principles of Database and Knowledge-Base Systems, Vol- 


ume I, Computer Science Press, New York, 1989. 
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第 2 章 实体 -联系 数据 模型 


设计 数据 库 时 ， 要 分 析 这 个 数据 库 必 须 存储 的 信息 及 这 些 信息 组 成 部 分 之 间 的 关系 。 通 常数 
据 库 的 结构 为 数据 库 模 式 〈 database schema )， 它 是 用 一 种 语言 或 一 些 设计 符号 来 描述 的 。 设 计 人 
员 经 过 适当 的 考虑 ， 设 计 出 一 份 可 以 被 输入 到 DBMS 的 格式 ， 数 据 库 也 以 物理 形式 建立 起 来 。 

本 书 会 用 到 几 种 设计 符号 。 在 这 一 章 ， 先 开始 介绍 一 种 传统 且 流 行 的 方法 ， 叫 做 “实体 - 
KR” (ER) 模型 。 这 种 模型 实际 上 是 用 矩形 和 箭头 表示 基本 数据 元 素 及 其 联系 的 图 形 。 

第 3 章 将 集中 讨论 关系 模型 。 在 关系 模型 中 ， 现 实 领域 被 表示 为 一 个 表 集 合 。 关 系 模型 虽 
然 只 能 表达 有 限 的 结构 ， 然 而 简单 、 实 用 ， 当 今 主要 的 商业 DBMS 都 是 建立 在 这 种 模型 上 。 数 
据 库 设计 者 通常 先 用 E/R 模 型 或 是 面向 对 象 的 模型 设计 出 模式 ， 再 把 模式 转换 成 关系 模型 。 

其 他 模型 会 在 第 4 章 涉 及 到 。4.2 节 会 介绍 面向 对 象 数 据 库 的 标准 一 一 ODL( 对 象 定义 语言 )。 
然后 ， 再 来 看 面向 对 象 的 思想 对 关系 DBMS 的 影响 ， 由 此 产生 常 说 的 “对 象 - 关 系 ” 模 型 。 

4.6 节 介绍 另 一 种 建 模 方法 ， 叫 做 “ 半 结 构 化 数据 ”*"。 这 种 模型 在 组 织 数据 的 结构 上 有 很 大 
的 灵活 性 。 在 4.7 节 ， 还 要 讨论 XML 标 准 ， 它 把 数据 转化 成 具有 层次 式 结 构 的 文档 模式 ， 用 “ 标 
签 ”( 像 HTML 的 标签 ) 来 标识 文本 元 素 的 作用 。XML 是 半 结 构 化 数据 模型 的 一 个 重要 体现 。 


E/R 关系 


图 2-1 数据 库 建 模 与 实现 过 程 


图 2-1 显 示 了 如 何 用 E/R 模 型 进行 数据 库 设计 。 先 是 提出 对 信息 建 模 的 思想 ， 并 用 E/R 模 型 
描述 它们 。 然 后 ， 将 抽象 的 EJR 设 计 转 化 成 用 某 个 DBMS 的 数据 说 明 语言 描述 的 模式 。 这 种 
DBMS 最 常 使 用 的 是 关系 模型 。 通 过 这 样 一 种 相当 机 械 的 处 理 过 程 ， 把 抽象 的 设计 转化 为 具体 
的 关系 设计 ,设计 的 结果 叫做 “关系 数据 库 模 式 ”。 这 些 内 容 将 在 3.2 节 中 讨论 。 

应 当 注 意 到 ， 有 一 些 DBMS 使 用 非 关 系 或 非 对 象 - 关 系 的 模型 ， 而 且 没 有 一 个 DBMS 是 直 
接 用 BE/R 模 型 的 。 原 因 是 E/R 模 型 并 不 是 足够 有 效 的 数据 结构 ， 不 能 作为 数据 库 的 基础 。 


2.1 E/R 模 型 的 要 素 


数据 库 结 梅 抽象 表示 的 最 常用 模型 是 实体 -联系 寞 型 (entity-relationship model )， 或 E/R 模 
型 。 在 E/R 模型 中 ， 数 据 的 结构 被 表示 为 “实体 -联系 ”图 ， 图 中 有 三 个 主要 的 元 素 类 型 : 

1. 实体 集 ; 

2. 属性 ; 

3. 联系 。 

下 面 将 依次 介绍 这 三 个 元 素 。 
2.1.1 实体 集 

实体 (entity ) 是 某 个 抽象 事物 ， 相 似 实体 的 集合 形成 实体 集 (entity set )。 从 面向 对 象 程 
序 设计 的 意义 上 讲 ， 实体 和 “对 象 ”有 某 种 相似 性 。 同 样 ， 实 体 集 和 对 象 类 也 有 相似 性 。 但是， 
E/R 模 型 是 个 静态 的 概念 ， 它 只 包括 数据 的 结构 而 不 包括 对 数据 的 操作 。 所 以 ， 实 体 集中 不 会 
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像 类 那样 有 方法 (method) 出 现 。 

例 2.1 用 一 个 关于 电影 的 数据 库 作 为 持续 使 用 的 例子 。 数 据 库 中 包括 有 电影 、 影 星 、 电 
影 制作 公司 和 电影 其 他 方面 的 内 容 。 每 部 电影 是 个 实体 ， 所 有 电影 构成 一 个 实体 集 。 同 样 ， 影 
星 也 是 实体 ， 影星 的 集合 也 是 一 个 实体 集 。 电 影 公 司 是 另 一 类 实体 ， 它 的 集合 是 出 现在 例子 中 
的 第 三 个 实体 集 。 口 









E/R 模 型 的 变化 
在 E/R 模 型 的 某 些 版 本 中 ， 属 性 的 类 型 可 以 是 : 

1. 原子 的 ， 如 本 书 E/R 模 型 中 的 属性 。 

2. 如 CC 语言 中 的 “结构 ”或 具有 固定 数目 的 原子 性 成 分 的 元 组 。 
3. 某 种 类 型 的 一 组 值 : 或 为 原子 类 型 的 ， 或 为 “结构 ”类 型 的 。 


2.1.2 属性 

实体 集 有 相关 的 属性 (attribute )， 属 性 是 这 个 实体 集中 的 实体 所 具有 的 性 质 。 比 如 ， 实 体 
集 Movies 的 属性 可 能 有 title ( 电影 名 ) 或 length (HK) 即 电影 放映 多 少 分 钟 。 在 本 书 的 E/R 模 
型 中 ， 假 定 属性 都 是 原子 值 ， 比 如 字符 串 、 整 数 或 实数 。 但 是 这 个 模型 可 以 有 一 些 其 他 变化 ， 
其 中 属性 可 以 是 限定 的 结构 ， 请 见 上 面 方 框 中 的 “ER 模型 的 变化 ”。 
2.1.3 联系 

RA (relationship) 是 两 个 或 多 个 实体 集 间 的 连接 。 如 ，Movies 和 Stars 是 两 个 实体 集 ， 
Stars-in 就 是 连接 Movies 和 Stars 的 联系 。 其 目的 是 如 果 影 星 实 体 s 出 现在 电影 实体 m 中 ，m 和 s 就 
被 Stars-in 联 系 在 一 起 。 二 元 联系 是 目前 为 止 最 一 般 的 联系 类 型 ， 它 联系 两 个 实体 集 ，E/R 模 型 
允许 联系 连接 任意 数目 的 实体 集 。2.1.7 节 将 讨论 这 种 多 路 联系 。 
2.1.4 实体 -联系 图 

E/R 图 (E/R diagram) 是 用 来 描述 实体 集 、 属 性 和 联系 的 图 形 。 图 中 每 种 元 素 都 用 结 点 表 
Pe BARRE ARIES RAAT FE TERIA 

* 和 矩形 表示 实体 集 

+ 椭圆 表示 属性 

。 葵 形 表 示 联 系 

用 实 线 来 连接 实体 集 与 它 的 属性 以 及 联系 与 它 的 实体 集 。 

例 2.2 图 2-2 是 一 个 E/R 图 ， 表 示 一 个 简单 的 电影 数据 库 。 实 体 集 是 Movies、Stars 和 Studios。 










图 2-2 电影 数据 库 的 实体 联系 图 


Movies 实 体 集 有 四 个 属性 : title、year ( 电影 制作 日 期 )、length 和 filmType (“彩色 ”或 
“黑白 ”)。 另 外 两 个 实体 集 Stars 和 Studios 正 好 有 两 个 相同 的 属性 : name 和 address， 都 有 其 显 而 
易 见 的 含义 。 图 中 还 有 两 个 联系 : 
1. Stars-in 是 电影 及 其 影星 的 联系 。 因 此 这 也 是 影星 及 其 参 演 电影 的 联系 。 
2. Owns 是 电影 及 其 所 属 电影 公司 的 联系 。 图 2-2 中 指向 实体 集 Studios 的 箭头 暗示 每 部 电影 
只 属于 惟一 的 电影 公司 。2.1.6 节 将 讨论 像 这 样 的 惟一 性 约束 。 口 


2.1.5_E/R 图 实例 

E/R 图 是 一 种 描述 数据 库 模 式 ( 即 数 据 库 结构 ) 的 符号 。 用 ER 图 描述 的 数据 库 包含 特定 的 
数据 ， 称 做 数据 库 实例 (instance )。 特 别 地 ， 对 每 个 实体 集 ， 数据库 实例 有 一 个 特定 的 有 限 实 
体 集 合 。 实 体 集 中 的 每 个 实体 对 每 个 属性 都 有 特定 的 值 。 记 住 ， 这 种 数据 是 抽象 化 的 ， 人 们 并 
不 会 直接 把 ER 数据 存 人 数据 库 。 在 把 数据 转化 为 关系 数据 库 和 物理 存在 形式 之 前 ， 想 像 一 下 
这 种 数据 的 存在 有 助 于 对 设计 的 思考 。 

数据 库 实 例 也 包含 联系 的 具体 选择 。 连 接 n 个 实体 集 E,、E,、…、E, 的 联系 R 有 一 个 实例 ， 
由 列表 Cer, en +. en) 的 有 限 集 构成 ， 其 中 e 是 从 实体 集 巨 的 当前 实例 中 选 出 的 。 这 样 的 列 
表 由 联系 R“ 连 接 ” 起 来 。 

这 个 列表 和 集 叫 做 R 当 前 实例 的 联系 集 (relationship set )。 把 联系 集 直观 地 表示 为 一 张 表 很 
有 帮助 。 表 的 列 标题 是 包含 在 联系 集中 的 实体 集 名 ， 表 的 行 是 被 联系 连接 起 来 的 一 串 实体 集 。 

例 2.3 下 表 表 示 联 系 Stars-in 的 一 个 实例 ; 

Movies Stars 


Basic Instinct | Sharon Stone 
Total Recall Arnold Schwarzenegger 
Total Recall Sharon Stone 


联系 集 的 成 员 是 表 的 行 。 例 如 : 


(Basic Instinct, Sharon Stone) 


是 联系 Stars-in 的 当前 实例 的 联系 集中 的 一 个 元 组 。 口 
2.1.6 二 元 E/R 联 系 的 多 样 性 


总 体 来 说 , 二 元 联系 能 将 一 实体 集中 任意 数目 的 实体 与 男 一 实体 集中 任意 数目 的 实体 连接 。. 


可 是 ， 对 联系 的 多 样 性 通常 会 有 所 约束 。 假 设 R 是 连接 实体 集 E 和 F 的 联系 ， 那 么 : 

“ 如 果 E 中 的 任 一 实体 可 以 通过 R 与 F 中 的 至 多 一 个 实体 联系 ， 那 么 说 R 是 从 E 到 F 的 多 对 一 
(many-one) 联系 。 当 从 E 到 F 是 一 种 多 对 一 的 联系 时 ，F 中 的 每 一 个 实体 都 能 与 E 中 的 若 
干 个 实体 联系 。 类 似 地 ， 如 果 F 中 任 一 实体 可 通过 R 与 E 中 至 多 一 个 实体 联系 ， 则 说 R 是 从 
F 到 E 的 多 对 一 联系 。( 或 者 说 是 从 E 到 F 的 一 对 多 联系 。) 

* 如 果 R 既 是 从 E 到 F 的 多 对 一 联系 ， 又 是 从 F 到 E 的 多 对 一 联系 ， 那 么 R 就 是 一 对 一 ( one- 
one) 联系 。 在 一 对 一 联系 中 ， 实 体 集中 的 一 个 实体 最 多 可 以 和 另 一 实体 集中 的 一 个 实体 
联系 。 

。 如 果 R 既 不 是 的 从 E 到 F 的 多 对 一 联系 ， 也 不 是 从 F 到 E 的 多 对 一 联系 ， 则 说 R 是 多 对 多 
(many-many ) 联系 。 

正如 在 例 2.2 中 提 到 的 ， 篆 头 可 用 来 表示 E/R 图 中 联系 的 多 样 性 。 如 果 从 实体 集 E 到 F 是 多 对 

一 联系 ， 就 把 箭头 指向 F。 箭 头 表明 实体 集 E 中 每 个 实体 与 实体 集 F 中 的 最 多 一 个 实体 联系 。 除 
非 还 有 一 个 箭头 指向 正 ，F 中 的 每 个 实体 可 以 与 E 中 的 若干 个 实体 联系 。 
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例 2.4 根据 这 个 原则 ， 如 果实 体 集 E 和 F 是 一 对 一 联系 ， 就 把 箭头 同时 指向 E 和 琅 。 例 如 ， 
图 2-3 中 有 两 个 实体 集 Studios 和 Presidents 以 及 它们 之 间 的 联系 Runs ( 属性 省 略 )。 假 设 一 位 经 
理 只 管理 一 家 电影 公司 ， 一 家 电影 公司 只 有 一 位 经 理 ， 那 么 这 种 联系 就 是 一 对 一 的 ， 可 以 用 两 
个 箭头 分 别 指 向 两 个 实体 。 


ie} | 


图 2-3 一 个 一 对 一 联系 


记 住 一 个 箭头 是 表示 “最 多 一 个 "， 但 它 并 不 保证 箭头 指向 的 实体 集中 的 实体 存在 。 所 以 ， 
在 图 2-3 中 ， 你 可 以 认为 一 位 经 理 一 定 会 和 某 个 电影 公司 有 联系 ; 否则 他 怎么 会 是 经 理 ? 但 是 ， 
电影 公司 可 能 会 在 某 一 特定 时 期 没有 经 理 ， 所 以 从 Runs 指 向 Presidents 的 箭头 含义 是 “最 多 一 
个 ”， 而 不 是 “有 且 只 有 一 个 ”。2.3.6 节 中 将 对 此 作 进 一 步 讨论 。 口 


2.1.7 多 路 联系 

E/R 模 型 使 人 们 能 够 更 方便 地 描述 两 个 以 上 实体 集 之 间 的 联系 。 实 际 上 ， 三 重 (三 路 ) 或 
更 多 路 的 联系 很 少 , 但 是 有 时 这 些 联 系 对 于 反映 事物 的 真实 情况 很 有 必要 。E/R 图 中 的 多 路 联 
系 由 从 著 形 到 联系 涉及 的 每 个 实体 集 的 连 线 表示 。 







不 同 联 系 类 型 的 含义 

应 当 意 识 到 多 对 一 联系 是 多 对 多 联系 的 一 种 特殊 情况 ， 而 一 对 一 联系 是 多 对 一 联系 
的 一 种 特例 。 也 就 是 说 ， 多 对 多 联系 的 任何 有 用 的 特性 也 同样 适用 于 多 对 一 联系 ， 多 对 
一 联系 的 任何 有 用 的 特性 也 同样 适用 于 一 对 一 联系 。 例 如 ， 表 示 多 对 一 的 数据 结构 也 可 
以 用 来 表示 一 对 一 联系 ， 但 不 适用 于 多 对 多 联系 。 


例 2.5 图 2-4 是 一 个 Contracts 联 系 ， 包 括 电 
影 公司 、 影 星 和 电影 三 个 实体 集 。 这 种 联系 表 
明 电影 公司 和 某 一 影星 签约 ， 让 他 出 演 一 部 电 
影 。 一 般 而 言 ，E/R 联 系 的 值 被 当 作 元 组 的 一 个 

联系 集 ， 元 组 的 组 成 成 分 是 加 入 到 联系 中 的 实 
体 ， 在 2.1.5 中 已 经 谈 过 这 点 。 所 以 ，Contracts 图 2-4 一 个 三 路 联系 
联系 可 以 由 三 元 组 

(studio, star, movie) 

来 描述 。 

在 多 路 联系 中 ， 指 向 实体 集 E 的 箭头 表示 : 如 果 从 此 联系 中 除 E 之 外 的 其 他 每 个 实体 集 选 
择 一 个 实体 ， 它 们 至 多 与 E 中 的 一 个 实体 有 联系 《 注意 ， 这 种 规则 是 对 二 元 联系 所 用 的 多 对 一 
表示 法 的 推广 )。 在 图 2-4 中 ， 有 一 个 箭头 指向 Studios， 表明 对 于 某 一 影星 和 电影 来 说 ， 只 有 一 
家 电影 公司 与 这 位 影星 签订 了 出 演 此 电影 的 合同 。 口 


2.1.8 联系 中 的 角色 
在 一 个 联系 中 一 个 实体 集 可 能 出 现 两 次 或 多 次 。 如 果 是 这 样 ， 根据 实体 集 在 联系 中 出 现 的 
次 数 ， 把 联系 与 实体 集 用 同样 多 的 连 线 连 起 来 。 每 一 条 连 向 实体 集 的 连 线 代 表 实 体 集 在 联系 中 
扮演 的 不 同 角色 (role )。 因 而 人 们 给 实体 集 和 联系 之 间 的 线 命名 ， 称 之 为 “角色 ”。 












多 路 联系 中 箭头 符号 的 限制 
当 一 个 联系 连接 三 个 或 更 多 的 实体 集 时 ， 仅 选择 有 无 箭头 的 连 线 是 无 法 表示 这 种 情 
况 的。 芋头 无 法 描述 每 种 可 能 出 现 的 情况 。 如 图 2-4 所 示 ， 电 影 制作 仅仅 是 电影 公司 才 具 
有 的 功能 ， 而 不 是 影星 和 电影 二 者 的 结合 。 已 有 的 符号 之 所 以 不 能 把 这 种 情况 与 三 路 联 


系 区 分 开 来 ， 是 因为 在 三 路 联系 情况 下 ， 被 往 头 指向 的 实体 集 是 其 他 两 个 实体 集 的 函数 。 
在 3.4 节 中 采用 了 一 种 正式 符号 一 一 函数 依赖 ， 它 可 以 描述 出 一 个 实体 集 如 何 被 其 他 实体 
集 惟一 决定 的 所 有 可 能 。 
例 2.6 图 2-5 给 出 了 一 个 实体 集 Movies 和 一 个 由 它 本 身 组 Original 
成 的 联系 Sequel-of。 每 个 联系 连接 两 部 电影 ， 其 中 一 部 是 另 一 
< 和 六 








Movies 


部 的 续集 。 为 了 在 一 种 联系 中 区 别 两 部 电影 ， 一 条 线 标 以 
Original ， 男 一 条 标 以 Sequel， 分 别 代表 最 初 的 电影 及 续集 。 假 


设 一 部 电影 有 许多 部 续集 ， 但 对 于 每 部 续集 来 说 只 存在 一 部 初 Sequel 
集 。 所 以 Sequel 电 影 与 Original 电 影 之 间 是 多 对 一 联系 ， 如同 已 图 2-5 带 有 角色 的 联系 
在 图 2-5 的 ER 图 中 用 箭头 表明 的 那样 。 口 


例 2.7 ”这 是 最 后 一 个 包含 多 路 联系 和 具有 多 重 角色 的 实体 集 的 例子 。 图 2-6 所 示 联 系 比例 
2.5 中 介绍 的 Contracts 联 系 更 为 复杂 。 这 里 ，Contracts 联 系 包 括 两 家 电影 公司 、 一 位 影星 和 一 部 
电影 。 其 含意 是 ， 一 家 跟 某 个 影星 签约 〈 通常 并 非 仅 为 某 部 影片 ) 的 电影 公司 ， 可 能 与 另 一 家 
电影 公司 签约 使 该 影星 能 出 演 某 部 电影 。 因 而 ， 此 联系 被 描述 为 四 元 组 


(studiol, studio2, star, movie) 


的 形式 ， 表 示 studio2 与 studiol 签 约 借用 studio1 的 影星 出 演 电 影 。 





> RUN TS Is f 9 “ AUZAN 
司 。 但 是 ， 没 有 箭头 指向 Stars 或 Movies。 其 理 

由 如 下 : 给 定 一 位 影星 、 一 部 电影 和 制作 这 部 
电影 的 电影 公司 ， 就 可 确定 “拥有 ”此 影星 的 


惟一 一 家 电影 公司 。( 假定 一 位 影星 只 与 一 家 电 < 


影 公 司 签约 。) 类 似 地， 一 部 电影 只 由 一 家 电影 








tudio Producin 
公司 制作 ， 因 此 给 定 一 位 影星 、_ 部 电影 和 此 of star studio 
影星 的 签约 电影 公司 ， 就 可 以 惟一 决定 出 此 电 — 
影 的 制作 公司 。 注 意 ， 在 这 两 种 情况 下 ， 只 需 
要 知道 其 他 实体 集中 的 任 一 个 实体 就 可 以 惟一 图 2-6 一 个 四 路 联系 
决定 一 个 实体 一 一 例如 ， 只 需要 知道 电影 就 可 以 惟一 
联系 的 多 样 性 。 


没有 箭头 指向 Stars 或 Movies。 给 定 一 位 影星 、 影 星 的 签约 电影 公司 和 电影 制作 公司 ， 可 能 
会 有 几 个 不 同 的 合同 使 该 影星 能 出 演 几 部 电影 。 因 此 ， 一 个 联系 四 元 组 的 另外 三 个 组 元 并 不 足 
以 惟一 决定 一 部 电影 。 类 似 地 ， 电 影 制作 公司 可 能 与 另外 一 些 电影 公司 签约 以 利用 它们 的 多 位 
影星 出 演 同一 部 影片 。 因 此 ， 影 星 并 不 能 由 其 他 三 个 组 元 惟一 决定 。 口 


2.1.9 联系 的 属性 
有 时 把 属性 与 联系 相连 , 较 之 与 联系 连接 的 任何 一 个 实体 集 相连 更 加 方便 , 甚至 至 关 重要 。 
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例如 ， 图 2-4 中 的 联系 代表 影星 和 电影 公司 就 一 部 电影 签订 的 合同 ? 。 人 们 可 能 会 希望 从 合同 中 
记录 下 片酬 。 但 是 不 能 把 它 与 影星 联系 起 来 ， 影星 可 能 在 不 同 的 电影 中 片酬 不 同 。 类 似 地 ， 把 
片 柄 与 电影 公司 (它们 会 付 不 同 的 片 柄 给 不 同 的 影星 ) 或 电影 ( 不 同 的 影星 在 同一 部 电影 中 的 
片酬 不 同 ) 联系 起 来 也 是 毫 无 意义 的 。 

但 是 ， 把 片酬 与 三 元 组 

(star, movie, studio) 
联系 起 来 是 合适 的 。 图 2-7 是 在 图 2-4 的 基础 上 增加 了 一 些 属性 。 此 处 联系 有 了 属性 salary ， 而 
图 2-2 中 的 实体 集 也 有 这 样 的 属性 。 





图 2-7 一 个 有 属性 的 联系 


其 实 并 没有 必要 为 联系 添加 属性 。 人 们 可 以 创建 一 个 新 的 实体 集 ， 将 原 属于 联系 的 属性 连 
到 这 个 实体 集 上 ， 把 这 个 实体 集 包 含 在 联系 中 ， 省 去 联系 本 身 的 属性 。 但 是 联系 上 带 属性 是 个 
有 用 的 惯例 ， 在 适当 的 场合 会 继续 使 用 它 。 

2.8 ”修改 图 2-7 中 的 E/R 图 。 原 图 中 的 联系 Contracts 有 属性 salary。 创 建 一 个 有 属性 salary 
的 实体 集 Salaries。Salaries 变 成 了 联系 Contracts 的 第 四 个 实体 集 。 全 图 显示 在 图 2-8 中 。 口 
2.1.10 多 路 联系 到 二 元 联系 的 转换 

有 一 些 数据 模型 限制 联系 必须 是 二 元 的 ， 如 ODL ( 对 象 定义 语言 )， 这 将 在 4.2 节 介绍 。 而 
E/R 模 型 不 要 求 联系 必须 是 二 元 的 ， 所 以 有 必要 看 一 下 连接 多 个 实体 集 的 联系 怎样 转化 为 一 组 
二 元 的 多 对 一 联系 。 这 里 介绍 一 种 新 的 实体 集 ， 它 的 实体 被 看 做 是 多 路 联系 的 联系 集 的 元 组 。 
这 个 实体 集 叫做 连接 实体 集 。 接 下 来 介绍 这 种 多 对 一 联系 ， 它 把 连接 实体 集 与 组 成 原来 多 路 联 
系 元 组 的 每 个 实体 集 相连 。 如 果 一 个 实体 集 扮演 多 个 角色 ， 那 么 每 个 角色 的 一 个 联系 就 指向 它 。 

例 2.9 ”图 2-6 中 的 四 路 联系 Contracts 可 以 用 一 个 也 称 为 Contracts 的 实体 集 代 替 。 如 图 2-9， 
合同 涉及 了 四 种 联系 。 如 果 联 系 Contracts 的 联系 集 有 一 个 四 元 组 


(studiol, studio2, star, movie) 
那么 实体 集 Contracts 就 有 一 个 实体 e。 这 个 实体 由 联系 Star-of 连 向 实体 集 Stars 中 的 实体 star; 由 
联系 Movie-of 连 向 Movies 中 的 movie 实 体 ;， 再 分 别 由 联系 Studio-of-star 和 Producing-studio 连 向 
Studios 中 的 实体 studio1 和 studio2 。 口 





O 这 里 ,已 将 其 恢复 成 例 2.5 中 的 三 路 合同 的 符号 ， 而 不 是 例 2.7 中 的 四 路 联系 。 
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图 2-8 将 属性 移 至 实体 集 


注意 ， 虽 然 图 2-9 中 的 其 他 实体 集 都 有 隐 合 
属性 , 但 是 假定 为 实体 集 的 Contracts 没 有 属性 。 
然而 ， 也 可 能 对 实体 集 Contracts 加 上 属性 ， 比 
如 签约 的 日 期 。 口 


2.1.11 E/R 模 型 中 的 子 类 

经 常 地 ， 一 个 实体 集中 含有 一 些 实体 ， 这 
些 实 体 拥有 集合 中 其 他 实体 成 员 没 有 的 特殊 性 
质 。 如 果 这 种 情况 存在 ， 那 么 ,定义 一 些 特例 
实体 集 或 子 类 (subclass) 就 很 有 用 。 这 里 每 个 
子 类 有 它 自 己 的 特殊 的 属性 和 /或 联系 。 我 们 用 
一 个 被 称 做 isa 的 联系 连接 实体 集 和 它 的 子 类 
(也 就 是 ，“4 是 8” 表 达 了 从 实体 集 4 到 实体 集 B 
的 “isa” 联 系 )。 Studios 

isa 联 系 是 一 种 特殊 的 联系 ， 为 了 强调 它 与 sae | 
其 他 联系 不 同 ， 用 一 种 特殊 符号 表示 。 每 个 isa 图 2.9 用 实体 集 和 二 元 联系 代替 多 路 联系 
联系 用 一 个 三 角形 表示 。 三 角形 的 一 边 与 子 类 相连 ， 与 此 边 相对 的 一 角 与 父 类 相连 。 尽 管 没有 
标 出 两 个 箭头 ， 但 每 个 isa 联 系 都 是 一 对 一 联系 。 

例 2.10 ”在 电影 实例 数据 库 中 可 以 存储 的 电影 种 类 有 卡通 片 、 弛 杀 片 、 惊 险 片 、 豆 剧 片 以 
及 其 他 种 类 的 电影 。 对 每 一 种 电影 ， 都 可 以 定义 Movies 实 体 集 的 子 类 。 例 如 ， 假定 有 两 个 子 类 : 
Cartoons 和 Murder-Mysteries。 卡 通 片 除 了 拥有 所 有 Movies 共 同 的 属性 和 联系 外 ， 还 有 一 个 额外 
的 联系 叫 Voices， 它 给 出 了 并 不 出 演 电影 的 配音 演员 的 集合 。 除 卡 通 片 外 的 电影 没有 配音 演员 。 
凶杀 片 的 一 个 附加 属性 是 weapon。 实 体 集 Movies 、Cartoons 和 Murder-Mysteries 之 间 的 联系 如 
图 2-10 所 示 。 口 


并 列 联 系 可 以 不 同 

图 2-9 说 明 联系 的 一 个 细节 。 在 实体 集 Contracts 和 Studios 上 ， 有 两 个 不 同 的 联系 ， 
Studio-of-Star 和 Producing-Studio。 人 们 不 能 因此 就 认为 二 者 存在 相同 的 联系 集 。 事 实 上 , 
两 种 联系 中 ， 同 一 份 合同 和 相同 的 电影 公司 相连 接 是 不 可 能 的 ， 如 果 这 样 ， 电 影 公 司 就 
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只 能 与 它 本 身 签约 。 

更 一 般 地 ，E/R 图 中 相同 实体 集 存在 多 种 联系 是 正常 的 。 在 数据 库 中 ， 这 些 联系 实例 
一 般 都 不 同 ， 反 映 了 联系 的 不 同意 义 。 事 实 上 ， 如 果 两 个 联系 的 联系 集 是 相同 的 ， 那 么 
它们 就 是 相同 的 联系 ， 不 应 该 赋予 不 同 的 名 字 。 


当然 ,原则 上 说 ， 由 isa 联 系 连接 起 来 的 一 组 实体 集 可 以 是 任何 一 种 结构 ， 但 是 在 这 里 是 把 
isa 结 构 限 制 为 树 形 结构 ， 即 只 有 一 个 根 (root) 的 实体 集 ( 如 图 2-10 中 的 Movies )， 它 是 最 具 
有 普遍 性 的 ， 其 他 逐渐 具体 化 的 实体 集 就 由 树 形 结构 的 根 向 下 延伸 。 
假设 有 一 个 由 isa 联 系 连接 的 树 形 实体 集 。 单 个 实体 由 来 自 于 一 个 或 多 个 实体 集 的 组 成 部 分 
(component ) 构成 ， 这 些 组 成 部 分 在 包括 根 的 子 树 中 。 也 就 是 说 ， 如 果 一 个 实体 e 在 实体 集 E 中 
有 组 成 部 分 c<，E 在 树 中 的 父 实体 集 是 F， 那 么 e 也 有 F 中 的 组 成 部 分 4。 另 外 ，c 和 4 必须 在 从 E 到 
F 的 isa 联 系 集中 配对 出 现 。e 的 组 成 部 分 有 什么 属性 ， 实 体 e 就 一 定 有 什么 属性 ;它们 参与 什么 
联系 ，e 就 一 定 参与 什么 联系 。 
例 2.11 一 般 的 电影 ( 既 不 是 卡通 片 也 不 是 凶杀 片 ) 仅 有 在 如 图 2-10 的 根 实体 集 Movies 中 的 
一 个 组 成 部 分 。 这 些 实体 只 有 Movies 的 四 个 属性 ( 图 2-10 中 没有 显示 Movies 的 两 个 联系 一 一 
Stars-in 和 Owns )。 
一 部 非 凶 杀 类 卡通 片 有 两 个 组 成 部 分 ， 一 个 在 Movies 中 ， 一 个 在 Cartoons 中 。 故 而 它 的 实 
体 不 仅 有 Movies 的 四 个 属性 ， 还 有 联系 Voices。 类 似 地 ， 凶 杀 片 的 实体 有 两 个 组 成 部 分 ， 一 
在 Movies 中 ， 一 个 在 Murder-Mysteries 中 ， 因 此 有 五 个 属性 ， 包括 Weapon。 
最 后 ， 像 Roger Rabbit 这 样 的 电影 既 属 于 卡通 片 也 属于 凶杀 片 ， 它 在 三 个 实体 集 Movies、 
Cartoons 和 Murder-Mysteries 中 都 有 组 成 部 分 。 三 个 组 成 部 分 被 isa 联 系 连接 为 一 个 实体 。 这 些 
组 成 部 分 给 予 了 Roger Rabbit 实 体 Movies 的 四 个 属性 和 Murder-Mysteries 的 weapon 属 性 以 及 
Cartoons 的 Voices 联 系 。 口 









to Stars 





图 2-10 EAR 图 中 的 isa 联 系 


2.1.12 习题 
* 习题 2.1.1 为 一 家 银行 设计 一 个 数据 库 ， 包 括 客户 以 及 他 们 账户 的 信息 。 客 户 信息 包括 
姓名 、 地 址 、 电 话 、 社 会 保障 号 ， 账 户 信息 包括 号 码 、 类 型 ( 如 存款 、 支 票 ) 和 余额 。 另 
外 还 需要 记录 有 账户 的 客户 。 为 该 数据 库 画 一 幅 E/R 图 。 在 适当 的 地 方 画 上 箭头 ， 以 表示 
联系 的 多 样 性 。 
习题 2.1.2” 按 如 下 要 求 修改 习题 2.1.1 的 解决 方案 : 
a) 修改 图 使 一 个 账户 只 有 一 位 客户 。 


b) 使 一 位 客户 只 有 一 个 账户 。 
! c) 修改 习题 2.1.1 中 的 原 图 ， 使 客户 可 以 有 多 个 地 址 (街道 、 城 市 、 州 组 成 的 元 组 ) 和 
多 个 电话 。 记 住 E/R 模 型 不 允许 属性 有 非 原 子 类 型 ， 如 集合 。 
! d) 进一步 修改 你 的 图 使 客户 可 以 有 一 组 地 址 ， 每 个 地 址 有 一 组 电话 号 码 。 
习题 2.1.3 ”为 数据 库 设 计 E/R 图 ， 该 数据 库 记 录 球 队 、 队 员 和 球迷 的 信息 ， 包 括 : 
a) 每 个 球 队 的 名 称 、 队 员 、 队 长 ( 是 队员 的 一 员 ) 和 队 服 颜色 。 
b) 每 名 队员 的 名 字 。 
! o) 每 位 球迷 的 名 字 、 最 喜欢 的 球 队 、 最 言 欢 的 球员 、 最 喜欢 的 颜色 。 
有 一 些 颜 色 不 适合 球 队 的 属性 ， 你 如 何 避 开 这 些 约束 呢 ? 
习题 2.1.4 假设 希望 在 习题 2.1.3 的 模式 上 加 一 个 联系 Led-by， 连 接 两 名 队员 和 一 个 球 队 。 
意思 是 联系 集 由 三 元 组 
(playerl, player2, team) 
构成 ， 表 示 player2 当 队长 时 ，playerl 在 此 队 踢 球 。 
a) 修改 ER 图 。 
b) 把 三 元 联系 用 一 个 新 的 实体 集 和 二 元 联系 替换 。 
! c) 新 的 二 元 联系 是 否 和 以 前 存在 的 某 个 联系 相同 ? 注意 这 里 假设 两 名 队员 是 不 同 的 ， 
也 就 是 说 ， 队 长 不 能 自己 领导 自己 。 


面向 对 象 系统 中 的 子 类 
E/R 模 型 中 的 jsa 和 面向 对 象 语言 中 的 子 类 有 惊人 的 相似 之 处 。 从 某 种 意义 上 说 ，“isa” 
是 把 子 类 与 父 类 联系 起 来 。 但 是 ， 传 统 的 E/R 观 志 与 面向 对 象 方法 仍 有 根本 区 别 ;， AX 
体 集 树 中 一 个 实体 由 其 他 实体 代表 是 允许 的 ， 但 对 象 只 存在 于 一 个 类 或 子 类 中 。 


在 例 2.11 中 ， 当 讨论 如 何 处 理 电影 Roger Rabbit 时 ， 这 种 区 别 变 得 很 明显 。 运 用 面向 
对 象 方法 ， 需 要 给 这 部 电影 第 四 个 实体 集 : cartoon-murder-mystery， 它 继承 了 Movies、 
Cartoons 和 Murder-Mysteries 的 所 有 属性 和 联系 。 然 而 ， 在 E/R 模 型 中 ， 只 要 把 Roger Rabbit 
的 所 有 成 分 放 进 Cartoons 和 Murder-Mysteries 实 体 集中 ， 就 能 获得 第 四 个 子 类 的 作用 。 





习题 2.1.5 ”修改 习题 2.1.3 ， 为 每 个 队员 记录 他 们 跑 球 的 历史 ， 和 包括 为 每 个 球 队 效力 的 开 
始 日 期 和 结束 日 期 (如 果 他 们 是 转 会 过 来 的 )。 
习题 2.1.6 ”假设 维护 一 部 家 谱 需 要 一 个 实体 集 Person。 和 希望 记录 的 成 员 信息 包括 他 们 的 姓 
名 (一 个 属性 ) 以 及 以 下 的 联系 : 母亲 、 父 亲 和 和 孩子 。 给 出 E/R 图 ,包括 Person 实 体 集 和 
它 涉及 的 所 有 的 联系 ， 包 括 与 母亲 、 父 亲 、 孩 子 的 联系 。 当 一 个 实体 集 在 一 个 联系 中 被 多 
次 使 用 时 别 忘 了 指出 其 角色 。 
习题 2.1.7 ”修改 习题 2.1.6 中 的 数据 库 设计 以 包含 下 列 类 型 的 成 员 : 

1. 女性 

2. 男性 

3. 为 人 父母 者 
如 果 你 还 想 根据 其 他 类 型 来 设计 ， 请 用 联系 连接 适当 的 成 员 子 类 。 
习题 2.1.8 另外 一 种 表示 习题 2.1.6 的 信息 的 方法 是 用 三 元 联系 Family， Family 联 系 集中 的 
三 元 组 
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(person, mother, father) 


分 别 是 一 个 人 和 他 的 母亲 与 父亲 。 当 然 ， 这 三 者 都 是 People 实体 集中 的 实体 。 
* a) 画 出 BR 图 ， 把 箭头 标 在 适当 的 线 上 。 

b) 用 一 个 实体 集 和 一 个 二 元 联系 代替 三 元 联系 Family， 并 用 迄 头 显示 联系 的 多 重 性 。 
习题 2.1.9 为 大 学 注册 设计 一 个 适当 的 数据 库 。 这 个 数据 库 应 当 包 含 的 信息 有 学 生 、 系 别 、 
教授 、 课 程 、 哪 些 学 生 选 邵 些 课 、 哪 些 教授 教 哪些 课 、 学 生年 级 、 助 教 ( 助教 也 是 学 生 )、 
一 个 系 开 娜 些 课 ， 等 等 ， 以 及 任何 你 认为 合适 的 信息 。 这 个 问题 比 上 面 的 问题 提 的 更 自由 ， 
你 需要 考虑 联系 的 多 重 性 ， 适 当 的 类 型 ， 甚 至 什么 样 的 信息 需要 表示 。 
习题 2.1.10 ” 非 正 式 地 讲 ， 如 果 反 映 现实 世界 情况 的 两 个 BR 图 的 实例 ， 一 个 能 从 另 一 个 
推出 ， 那 么 说 这 两 个 BR 图 包含 相同 的 信息 。 考 虑 图 2-6 的 E/R 图 。 利 用 一 部 电影 必然 只 由 
一 家 电影 公司 制作 这 个 事实 ， 这 种 四 路 联系 可 以 变 为 一 个 三 路 联系 和 一 个 二 元 联系 。 不 利 
用 四 路 联系 ， 画 出 与 图 2-6 包 含 信 息 相 同 的 ER 图 。 


2.2 设计 原则 


虽然 还 需要 了 解 B/R 模 型 的 更 多 细节 。 但 是 在 学 习 是 什么 组 成 一 个 好 的 设计 ， 什 么 应 当 避 
免 这 些 重要 问题 之 前 还 有 许多 需要 讨论 。 在 本 节 , 先 介绍 一 些 有 用 的 设计 原则 。 

2.2.1 忠实 性 

首要 的 也 是 最 重要 的 ， 设 计 应 当 忠实 于 应 用 的 具体 要 求 。 也 就 是 说 ， 实体 集 和 它们 的 属性 
应 当 反 映 现实 。 你 不 能 把 属性 number-of-cylinders 与 Stars 联 系 ， 然 而 却 可 以 把 它 作为 汽车 的 属 
性 。 根 据 所 了 解 的 那 一 部 分 真实 世界 去 建 模 ; 无 论 设计 哪 一 种 联系 都 应 当 有 意义 。 

例 2.12 ”如 果 在 Stars 和 Movies 之 间 定 义 联 系 Stars-in， 它 应 该 是 一 种 多 对 多 联系 。 原 因 是 
根据 对 现实 世界 的 观察 ， 影 星 可 以 在 不 止 一 部 电影 中 出 现 ， 出 演 一 部 电影 的 影星 也 不 止 一 位 。 
认为 Stars-in 是 任 一 方向 的 多 对 一 或 一 对 一 联系 都 是 不 正确 的 。 口 

52.13 另 一 方面 ， 有 时 并 不 清楚 现实 世界 要 求 在 E/R 建 模 中 做 什么 。 例 如 ， 思考 一 下 实 
体 集 Courses 和 Instructors ， 它 们 之 间 有 联系 Teaches。 从 Courses 到 Instructors ，Teaches 是 一 种 多 
对 一 联系 吗 ? 答案 在 于 创建 数据 库 的 组 织 的 政策 和 意图 。 有 没有 可 能 学 校 有 这 样 一 个 政策 ， 对 
每 一 门 课 只 有 一 名 教师 ? 即使 有 许多 教师 组 成 小 组 轮流 教授 一 门 课程 ， 学 校 可 能 要 求 只 将 一 名 
教师 的 名 字 列 人 数据 库 中 ， 作 为 这 门 课 的 负责 人 。 上 述 任何 一 种 情况 ， 都 会 使 从 Courses 到 
Instructors 的 联系 Teaches 是 多 对 一 的 。 

相反 ， 学 校 可 能 定期 聘用 一 组 教师 ， 并 且 希 望 数 据 库 允 许 几 名 教师 教 同 一 门 课 。 或 者 ， 
Teaches 联 系 的 意图 可 能 并 不 是 表示 出 目前 教 这 门 课 的 教师 ， 而 是 那些 曾经 教 过 或 者 能 够 教 这 
门 课 的 人 。 因 此 ， 不 能 简单 地 从 联系 的 名 称 上 做 出 判断 。 在 这 两 种 情况 中 ， 把 Teaches 作 为 多 
对 多 联系 更 为 恰当 。 口 


2.2.2 避免 元 余 
应 当 小 心 : 每 件 事 只 说 一 次 。 例 如 ， 在 电影 和 电影 公司 之 间 用 了 联系 Owns。 也 可 以 把 电 
影 公司 的 名 称 studioName 选 作 电影 实体 集 的 一 个 属性 。 虽 然 这 样 做 并 不 违反 规定 ， 但 却 危险 ， 


原因 有 以 下 几 点 : 


1. 当 数 据 被 存储 时 ， 同 一 家 电影 公司 的 两 次 表达 ， 比 只 表达 一 次 占用 了 更 多 的 空间 。 
2. 当 电 影 卖 出 去 后 ， 可 能 改变 了 被 联系 Owns 连 接 的 拥有 者 电影 公司 ， 但 是 忘 了 改变 属性 
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studioName， 或 者 出 现 相反 的 情况 。 当 然 有 人 会 说 人 们 不 会 犯 这 种 不 小 心 的 错误 ， 但 实际 上 错 
误 是 常 有 的 ， 把 一 种 东西 用 两 种 方式 说 出 来 是 在 自 找 麻 烦 。 

在 3.6 节 将 更 正式 地 讨论 这 个 问题 并 学 习 重 新 设计 数据 库 模 式 的 方法 ， 以 去 掉 宛 余 及 其 附 
带 问题 。 
2.2.3 简单 性 考虑 

除非 有 绝对 需要 ， 不 要 在 你 的 设计 中 添加 更 多 成 分 。 

例 2.14 ”假定 用 “电影 所 有 权 ” 来 代替 Movies 和 Studios 之 间 的 联系 。 可 再 创建 一 个 实体 集 
Holdings ， 一 个 一 对 一 联系 Represents 就 在 每 部 电影 和 它 的 所 有 权 之 间 建 立 起 来 。 从 Holdings 到 
Studios 之 间 的 多 对 一 联系 如 图 2-11 所 示 。 


图 2-11 含有 不 必要 实体 集 的 拙劣 设计 

从 技术 上 说 ， 图 2-11 真 实地 反映 了 现实 世界 ， 因 为 一 部 电影 由 联系 Holdings 连 向 它 的 惟一 
的 拥有 者 是 可 能 的 。 然 而 ，Holdings 在 这 里 没有 实际 用 途 ， 没 有 它 可 能 更 好 。 它 使 使 用 “ 电 
影 -电影 公司 ”联系 的 程序 变 得 更 复杂 、 浪 费 空 间 和 更 容易 犯错 。 口 
2.2.4 选择 正确 的 联系 

实体 集 可 以 用 多 种 方式 连接 起 来 。 但 是 , 把 每 种 可 能 的 联系 都 加 到 设计 中 却 不 是 个 好 办 法 。 
首先 , 它 导致 元 余 , 即 一 个 联系 连接 起 来 的 实体 对 或 实体 集 可 以 从 一 个 或 多 个 其 他 联系 中 导出 。 
第 二 ， 使 得 数据 库 可 能 需要 更 多 的 空间 来 储存 宛 余 元 素 ， 而 且 修 改 数据 库 会 更 复杂 ， 因 为 数据 
的 一 处 变动 会 引起 储存 联系 的 多 处 变动 。 这 些 问 题 和 2.2.2 节 讨论 过 的 问题 本 质 上 一 致 ， 尽 管 导 
致 问题 的 原因 不 同 。 

可 以 用 两 个 例子 来 解释 这 个 问题 ， 并 说 明 解 决 办 法 。 在 第 一 个 例子 中 许多 联系 表示 相同 的 
信息 。 第 二 个 例子 中 一 个 联系 可 以 从 另外 几 个 中 导出 。 

例 2.15 首先 再 来 看 一 下 图 2-7， 图 中 电影 、 影 星 和 电影 公司 被 三 路 联系 Contracts 连 接 起 
来 。 这 里 省 略 了 图 2-2 中 的 二 元 联系 Stars-in 和 Owns。 是 否 需要 在 Movies 和 Stars ，Movies 和 
Studios 之 间 分 别 加 上 这 些 联系 呢 ? 答案 是 :“ 不 知道 。 这 取决 于 对 问题 中 这 三 个 联系 的 假定 。” 

人 们 可 以 从 Contracts 推 出 Stars-in。 如 果 只 有 在 合同 中 包含 影星 、 电 影 、 电 影 所 属 的 电影 公 
司 诸 项 的 条 件 下 ， 影 星 才 会 在 这 部 电影 中 出 现 ， 那 么 Stars-in 的 确 不 需要 存在 。 观 察 联 系 
Contracts 中 的 star-movie-studio 三 元 组 ， 再 把 影星 、 电 影 两 个 成 分 抽出 来 就 可 以 得 到 starmovie 
对 了 。 但 是 ， 如 果 一 个 影星 没有 签 合同 就 可 以 演 电影 一 或 者 更 有 可 能 的 情况 是 在 数据 库 中 没 
有 此 项 合同 那么 Stars-in 中 就 可 能 存在 这 样 的 star-movie 对 ， 它 们 不 是 Contracts 中 的 star- 
movie-studio 三 元 组 的 一 部 分 。 这 时 ， 需 要 保留 Stars-in 联 系 。 

类 似 的 情况 也 适用 于 联系 Owns。 如 果 对 于 每 部 电影 ， 都 至 少 有 一 个 包含 电影 、 所 属 电影 
公司 、 参 演 影星 的 诸 项 内 容 合 同 ， 就 可 以 不 用 Owns。 但 是 ， 如 果 有 电影 公司 的 电影 没有 影星 
签约 出 演 或 数据 库 中 没有 这 个 合同 ， 就 必须 保留 Owns。 | 

总 之 ， 无 法 明确 告诉 你 一 个 特定 联系 是 否 多 余 。 你 必须 从 希望 创建 数据 库 的 人 那里 找 出 他 
们 需要 什么 。 只 有 这 样 ， 你 才能 对 是 否 包括 像 Stars-in 或 Owns 这 样 的 联系 作出 明智 的 选择 。 口 

例 2.16 ”现在 ， 再 看 一 下 图 2-2。 在 此 图 中 ， 影 星 和 电影 公司 之 间 没 有 联系 。 然 而 可 以 用 
联系 Stars-in 和 Owns， 并 通过 组 合 处 理 它们 来 创建 影星 和 电影 公司 之 间 的 连接 。 就 是 说 ， 一 位 
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影星 被 Stars-in 连 向 某 些 电影 ， 那 些 电 影 又 被 Owns 连 向 电影 公司 。 因 此 ， 可 以 说 一 位 影星 被 连 
向 一 些 电影 公司 ， 该 公司 拥有 这 个 影星 参 演 的 电影 。 
如 图 2-12， 在 Stars 和 Stuadios 之 间 创 建 一 个 联 
系 Works-for 有 意义 吗 ? 在 知道 更 多 信息 之 前 还 
不 能 判断 。 第 一 ， 这 个 联系 的 意思 是 什么 ? 如 
果 是 “至 少 出 演 这 个 电影 公司 的 一 部 电影 的 影 
星 ”， 那 么 可 能 就 没有 理由 把 它 包 含 进 这 司 图 中 
了 。 因 为 可 以 从 Stars-in 和 Owns 推 出 这 个 信息 。 

然而 ， 可 以 想像 那些 为 电影 公司 工作 的 影 
星 的 其 他 信息 ， 并 不 被 连 向 的 电影 所 需要 。 如 
果 那 样 的 话 ， 将 影星 和 电影 公司 直接 连接 可 能 
更 有 用 ， 而 不 宛 余 。 另 一 种 选择 ， 人 们 可 能 用 
一 个 影星 和 电影 公司 之 间 的 联系 来 表达 完全 不 
同 的 意思 。 如 ， 它 可 能 表示 这 个 影星 与 这 个 电影 公司 签约 ， 而 且 在 某 种 意义 上 跟 任 一 部 电影 没 
有 任何 关系 。 正 如 在 例 2.7 中 所 说 的 ， 一 个 影星 与 一 家 电影 公司 签约 而 为 另 一 家 电影 公司 的 一 
部 影片 工作 。 这 样 的 话 ， 在 新 的 联系 Works-for 中 的 信息 就 独立 于 联系 Stars-in 和 Owns， 而 且 肯 
EPER D 
22.5 选择 正确 的 元 素 种 类 

有 时 人 们 可 以 选择 不 同 的 设计 元 素 的 类 型 表示 现实 世界 。 这 样 的 选择 很 多 介 于 是 用 属性 还 
是 使 用 实体 集 / 联 系 之 间 。 一 般 来 说 ， 属 性 比 实体 集 或 联系 都 易于 实现 。 然 而 ， 并 不 能 把 一 切 
事物 都 作为 属性 。 

例 2.17 考虑 一 个 具体 的 问题 。 在 图 2-2 中 ， 把 电影 公司 作为 实体 集 是 否 明 智 ? 是 否 应 该 把 
电影 公司 的 名 字 和 地 址 作为 电影 的 属性 ， 并 把 实体 集 Studios 除 去 ”这 样 做 的 一 个 问题 是 得 为 每 
一 部 电影 重复 电影 公司 的 地 址 。 这 是 另 一 种 元 余 一 一 与 2.2.2 和 2.2.4 节 中 看 到 的 相似 。 此 外 ， 还 
面临 着 这 样 的 危险 ， 如 果 没 有 指定 电影 公司 所 拥有 的 任何 一 部 电影 ， 就 将 失去 电影 公司 的 地 址 。 

另 一 方面 ， 如 果 没 有 记录 电影 公司 的 地 址 ， 那 么 把 电影 公司 的 名 字 作 为 电影 的 一 个 属性 并 
没有 危害 ,没有 重复 地 址 所 产生 的 元 余 ; 必须 说 出 电影 的 名 字 ( 如 像 对 迪斯尼 拥有 的 每 部 电影 
说 出 Disney )， 这 一 事实 并 不 是 真正 的 宛 余 。 o 

通过 对 例 2.17 所 作 的 观察 ， 可 以 总 结 出 在 哪些 情况 下 宁愿 使 用 属性 而 不 使 用 实体 集 。 假 设 
BE 是 个 实体 集 。 如 果 要 把 下 用 一 个 属性 或 几 个 其 他 实体 集 的 属性 代替 ， 必 须 遵 守 下 列 条 件 ; 

1. MASE 有 关 的 联系 都 必须 有 指向 E 的 箭头 。 就 是 说 ，E 必 须 是 多 对 一 联系 中 的 “一 
或 者 它 对 多 重 联 系 情况 的 推广 。 

2. E 的 属性 必须 总 体 上 标识 一 个 实体 。 如 只 有 一 个 属性 则 肯定 符合 。 然 而 ， 如 果 有 几 个 属 
性 ,那么 不 能 有 属性 依赖 于 其 他 属性 ， 如 像 Studios 中 addrss 依 赖 于 name 一 样 。 

3. 没有 联系 包含 E 多 次 。 

如 果 这 些 条件 都 符合 ， 那 么 可 以 用 下 面 的 方式 代替 实体 集 E，: 

a) 如 果 从 实体 集 F 到 E 有 多 对 一 联系 R， 那 么 删除 R 并 把 E 的 属性 作为 F 的 属性 ， 如 果 名 称 跟 





图 2-12 在 Stars 和 Studios 之 间 加 一 个 联系 


F 原 来 的 属性 名 冲突 则 重 命 名 。 实 际 上 ， 每 个 F 实 体 把 与 5 实 体 有 关 的 惟一 名 字 作为 属性 ， 如 


O 在 一 个 F 实 体 不 与 任何 E 实 体 联系 的 情况 下 ，F 的 新 属性 将 被 赋予 特殊 值 “null*， 以 指明 关联 E 实 体 不 存在 。 
相似 的 规律 也 适用 于 (5 ) 中 R 的 新 属性 。 


同 电 影 对 象 可 以 把 电影 出 品 公司 的 名 字 作 为 一 个 属性 一 样 ， 此 时 无 需 考 虑 电影 公司 地 址 。 

b) 如 果 有 多 路 联系 R 的 箭头 指向 E， 把 E 的 属性 作为 R 的 属性 ， 并 删除 从 R 到 E 的 弧 。 一 个 
转换 的 例子 是 用 图 2-7 代 蔡 图 2-8， 在 图 2-8 中 引进 了 一 个 新 实体 集 Salaries， 它 有 一 个 数字 作为 
惟一 的 属性 。 

例 2.18 ”将 使 用 多 路 联系 和 使 用 附带 若干 二 元 联系 的 连接 实体 集 进行 一 下 比较 。 图 2-6 中 
影星 、 电 影 和 两 家 电影 公司 之 间 有 四 路 联系 。 在 图 2-9 中 是 机 械 地 把 它 转换 成 实体 集 Contracts。 
它 是 否 关系 到 我 们 所 作 的 选择 ?， 

从 问题 所 表述 的 内 容 看 ， 两 种 方式 都 是 适合 的 。 然 而 ， 如 果 将 问题 稍稍 变化 ， 就 不 得 不 选 
择 连 接 实 体 集 的 方式 。 假 设 合 同 包括 一 位 影星 、 一 部 电影 和 任何 一 组 电影 公司 。 情 况 比 图 2-6 中 
的 复杂 ， 在 那里 电影 公司 可 承担 两 个 角色 。 在 这 里 ， 合 同 中 可 以 包含 任意 数目 的 电影 公司 ， 可 
能 一 个 负责 制作 ， 一 个 负责 特别 效果 ， 一 个 负责 发 行 ， 等 等 。 此 时 无 法 给 电影 公司 分 配角 色 。 

看 起 来 ， 联 系 Contracts 的 联系 集 必须 包括 如 下 形式 的 三 元 组 : 


(star, movie, set-of-studios) 


联系 Contracts 本 身 不 仅 包含 通常 的 Stars 和 Movies 实 体 集 ， 而 且 还 有 一 个 新 的 实体 集 ， 它 的 
实体 是 电影 公司 类 型 。 虽然 不 能 阻止 采用 这 种 方法 , 但 把 电影 集合 看 做 基本 实体 显得 并 不 自然 ， 
不 建议 这 样 做 。 

一 个 更 好 的 方法 是 把 合同 看 做 为 一 个 实体 集 。 如 图 2-9， 合同 实体 连接 影星 、 电 影 和 一 组 
电影 公司 ,但 是 现在 无 须 限制 电影 公司 的 数目 。 因 此 ， 如 果 合同 是 真正 的 “连接 ”实体 集 ， 合 
同和 电影 公司 之 间 的 联系 是 多 对 多 ， 而 不 是 多 对 一 。 图 2-13 画 出 了 该 E/R 图 。 注 意 与 合同 相 联 
系 的 有 单独 一 位 影星 和 单独 一 部 电影 和 任意 数目 的 电影 公司 。 口 


2.2.6 习题 
习题 2.2.1 图 2-14 蚌 一 家 银行 数据 库 的 E/R 图 ， 包 括 客 户 和 账户 。 因 为 每 个 客户 可 以 有 几 
个 账户 ， 而 账户 可 以 被 几 个 客户 共同 拥有 ， 故 将 每 个 客户 与 一 个 “账户 集 ” 相 关联 ， 而 账 
户 是 一 个 或 几 个 账户 集 的 成 员 。 假 设 各 种 联系 和 属性 的 意思 正如 字面 意思 所 示 ， 请 评判 这 
个 设计 。 它 违反 了 什么 设计 规则 ? 为 什么 ? 你 建议 怎么 修改 ? 









Movies 








图 2-13 合同 连接 一 位 影星 、 
一 部 电影 和 一 组 电影 公司 图 2-14 银行 数据 库 的 一 个 拙劣 设计 
* 习题 2.2.2 你 认为 在 什么 情况 下 (考虑 Studios 和 Presidents 的 隐 含 属性 ) 可 以 把 图 2-3 中 的 
两 个 实体 集 和 联系 结合 起 来 成 为 单一 的 实体 集 和 属性 ? 
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习题 2.2.3 ”假设 在 图 2-7 中 删除 Studios 的 属性 address。 考 虑 如 何 用 一 个 属性 代替 一 个 实体 
集 。 那 个 属性 应 出 现在 什么 地 方 ? 
习题 2.2.4 给 出 可 能 的 替代 图 2-13 中 下 列 实体 集 的 属性 : 
a) Stars, 
b) Movies, 
! c) Studios, 

! 习题 2.2.5 在 本 题 和 下 题 中 ， 考 虑 用 E/R 模 型 表示 的 两 种 描述 出 生 的 设计 方案 。 在 一 次 出 
生 中 ， 有 一 个 婴儿 ( 双胞胎 用 两 次 出 生来 表示 )、 一 位 母亲 、 任 意 数目 的 护士 和 任意 数目 
的 医生 。 因 此 假设 ， 有 实体 集 Babies 、Mothers 、Nurses 和 Doctors。 假 设 用 一 个 联系 Births 
连接 上 述 四 个 实体 集 ， 如 图 2-15 所 示 。 注 意 Births 的 联系 集 元 组 为 如 下 形式 : 

(baby, mother, nurse, doctor) 


如 果 有 多 个 护士 或 医生 接生 ， 那 么 就 会 有 若干 个 包含 同一 婴儿 和 母亲 的 元 组 ， 对 应 于 


一 种 护士 和 医生 的 组 合 。 
可 将 某 些 假 设 合 并 到 设计 中 。 为 了 表示 假设 ， 对 每 一 个 假设 ， 说 明 如 何 把 篇 头 或 其 他 
元 素 加 到 E/R 图 中 。 


a) 每 个 婴儿 只 有 惟一 的 母亲 。 
b) 每 一 个 婴儿 、 护 士 和 医生 的 组 合 ， 有 相应 的 惟一 母亲 。 
c) 每 一 个 婴儿 和 和 母亲 的 组 合 ， 有 相应 的 惟一 医生 。 
! 习题 2.2.6 习题 2.2.5 的 另 一 种 解决 方案 是 用 实体 集 Births 连 接 四 个 实体 集 Babies、Mothers、 
Nurses 和 Doctors， 在 Births 和 它们 之 间 分 别 用 四 种 联系 ， 如 图 2-16 所 示 。 用 箭头 ( 表示 某 
些 联 系 是 多 对 一 ) 表示 下 列 条 件 : 
a) 每 个 婴儿 是 惟一 一 次 出 生 的 结果 ， 每 次 出 生 只 有 惟一 的 婴儿 。 
b) 除 条 件 (a) 外 ， 每 个 婴儿 有 惟一 的 母亲 。 
c) 除 条 件 (a)、(b) 外 ， 每 次 出 生 只 有 惟一 的 医生 。 
你 从 两 种 方案 中 分 别 看 出 哪些 缺陷 ? 


+ 


SS OLY 


图 2-15 用 多 路 联系 表示 出 生 图 2-16 用 一 个 实体 集 表 示 的 出 生 

!! 习题 2.2.7 假设 改变 观点 ， 允 许 一 个 母亲 一 次 生产 多 个 婴儿 。 在 此 情况 下 ， 你 怎样 用 习 
题 2.2.5 和 2.2.6 的 方法 去 表示 每 个 婴儿 仍然 只 有 惟一 的 母亲 ? 

23 约束 的 建 模 


迄今 人 们 已 经 知道 了 怎样 把 现实 世界 中 的 一 小 部 分 用 实体 集 和 联系 来 模拟 。 但 仍 有 一 些 现 
实 世 界 的 重要 方面 无 法 用 现 有 工具 模拟 。 这 些 信息 经 常 表现 为 附加 在 数据 上 的 约束 (constraint ) 
形式 ， 它 已 不 再 是 实体 集 、 属 性 、 联 系 的 定义 所 限制 的 结构 和 类 型 约束 。 
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2.3.1 约束 的 分 类 

下 面 是 常见 约束 的 大 致 分 类 ， 而 并 非 全 部 的 分 类 。 剩 下 的 部 分 将 在 5.5 节 讲 关系 代数 和 第 7 
章 讲 SQL 编 程 时 涉及 。 

1. 4€ (key) 是 实体 集中 惟一 标识 一 个 实体 的 属性 或 属性 集 。 不 存在 两 个 实体 其 构成 键 的 
所 有 属性 值 都 相同 ， 但 部 分 相同 是 允许 的 。 

2. 单 值 约束 (single-value constraint) ”是 指 值 在 某 种 情况 下 有 惟一 性 的 要 求 。 键 是 单 值 约 
束 的 主要 来 源 ， 因 为 它 要 求 一 个 实体 集中 的 每 个 实体 在 键 属性 上 都 有 惟一 值 。 也 有 其 他 单 值 约 
束 来 源 ， 如 多 对 一 联系 。 

3. 引用 完整 性 约束 (referential integrity constraint) 是 指 要 求 某 个 对 象 所 引用 的 值 必 须 在 
数据 库 中 实际 存在 。 引 用 完整 性 与 禁止 悬挂 指针 或 传统 编程 中 的 悬挂 引用 很 相似 。 

4, 域 约 束 (domain constraint ) 要 求 属 性 的 值 必须 在 一 个 具体 的 值 集 或 范围 里 。 

5. 一 般 约 束 (general constraint) ”是 需要 在 数据 库 中 得 到 满足 的 任意 要 求 。 例 如 ， 可 以 要 
求 任 一 部 电影 中 列 出 的 影星 数 不 超 过 十 位 。 在 5.5 和 7.4 节 中 介绍 一 般 约束 表达 式 语言 。 

这 些 约束 的 重要 性 体现 在 几 个 方面 。 它 们 讲述 了 要 模拟 的 现实 世界 各 个 方面 的 结构 。 例如， 
键 让 用 户 无 混淆 地 标识 实体 。 如 果 知 道 属性 name 是 实体 集 Studios 的 键 ， 那么 就 可 以 通过 指定 
电影 公司 的 名 字 来 指定 惟一 的 实体 。 另 外 ， 因 为 存储 单 值 比 存储 集合 容易 ， 即 使 是 那个 集合 中 
只 有 一 个 成 员 也 如 此 ”， 所 以 ， 知 道 惟一 值 会 节省 空间 和 时 间 。 引 用 完整 性 约束 和 键 还 支持 可 
使 数据 访问 更 快 的 存储 结构 。 这 将 在 第 13 章 中 讨论 。 
2.3.2 BE/R 模 型 中 的 键 

实体 集 E 的 键 (key ) 是 有 一 个 或 多 个 属性 的 集合 Kk， 对 来 自 于 E 的 不 同 实体 e,/ 和 e,， 它 们 包 
合 在 键 K 中 的 属性 没有 完全 相同 的 值 。 如 果 KK 由 多 个 属性 组 成 ， 对 于 e!/ 和 es 虽然 它们 可 以 部 分 相 
同 ,， 但 决 不 会 全 部 相同 。 有 三 点 需要 记 住 ; 

。 键 可 以 由 多 个 属性 组 成 ， 如 例 2.19。 . 

“一 个 实体 集 也 可 以 有 多 个 键 ， 如 在 例 2.20 中 将 会 看 到 的 那样 。 但 是 ， 习 惯 上 只 选择 一 个 

作为 “主键 "， 就 好 像 是 仅 有 的 键 。 

“ 当 一 个 实体 集 处 于 一 个 isa 层 次 中 时 ， 要 求 根 实 体 集 拥 有 键 所 需 的 所 有 属性 ， 并 且 每 个 实 

_ 体 集 的 键 都 可 在 根 实体 集中 找到 它 的 组 成 部 分 ， 而 不 论 在 层次 中 有 多 少 个 实体 集 有 它 的 

组 成 部 分 。 l 

例 2.19 ”考虑 例 2.1 中 的 实体 集 Movies。 人 们 一 开始 可 以 假定 属性 tite 单 独 构成 键 。 可 是 ， 
有 几 个 片 名 用 于 两 部 或 多 部 电影 ， 如 King Kong。 所 以 ，title 单 独 作为 键 是 不 明智 的 。 如 果 一 定 
要 这 样 做 ， 就 不 能 在 数据 库 中 同时 包含 两 部 名 为 King Kong 的 电影 了 。 


约束 是 模式 的 一 部 分 
人 们 观察 某 一 时 刻 存在 的 数据 库 时 ， 可 能 会 因为 那里 没有 两 个 实体 在 某 一 属性 上 

相同 ， 就 错误 地 决定 用 此 属性 作为 键 。 例 如 ， 在 创建 电影 数据 库 时 没有 电影 同名 。 所 

以 看 起 来 title 可 以 作为 键 。 然 而 ， 如 果 人 们 决定 了 用 title 作 键 ， 而 且 设计 了 一 个 用 title 

作 链 的 数据 库存 储 结构 后 ， 就 会 发 现 他 不 能 再 把 第 二 个 名 为 King Kong 的 电影 输入 数据 

ÈT, 

因此 ， 键 约束 和 一 般 约束 都 是 数据 库 模 式 的 一 部 分 。 它 们 是 数据 库 设 计 者 连同 结构 


















O 类 似 地 ， 注 意 在 C 编 程 中 表示 一 个 整数 比 表 示 一 个 整数 链表 简单 ， 即 使 链表 中 只 含有 一 个 整数 。 
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设计 (如 实体 和 联系 ) 一 块 声明 的 。 一 旦 一 个 约束 被 声明 了 ， 对 数据 库 的 任何 违反 约束 
的 插入 或 修改 操作 都 是 不 允许 的 。 


因此 ， 虽 然 一 个 特定 的 数据 库 的 实例 可 能 会 满足 菜 个 特定 约束 ， 但 是 惟一 “真正 ” 
的 约束 是 由 设计 者 指明 的 ， 能 正确 模拟 现实 世界 的 所 有 数据 库 实例 的 约束 。 这 些 约束 是 
可 以 由 用 户 和 数据 库存 储 结构 采用 的 约束 。 





一 个 更 好 的 选择 是 把 由 属性 title 和 year 构 成 的 集合 作为 键 。 即 使 这 样 仍然 存在 两 部 同名 电 
影 在 同一 年 出 品 的 危险 (此 时 不 能 同时 将 它们 存 人 数据 库 )， 尽 管 这 种 情况 不 太 可 能 出 现 。 

关于 例 2.1 中 的 另外 两 个 实体 集 Stars 和 Studios ， 必 须 仔 细 考 虑 用 什么 可 以 作 键 。 对 电影 公 
司 ， 有 理由 假定 没有 两 家 电影 公司 同名 ， 所 以 可 以 把 name 作 为 Studios 的 键 。 但 影星 只 用 名 字 
标识 就 不 那么 明确 了 。 可 以 肯定 ， 一 般 来 说 名 字 不 能 完全 区 分 不 同 的 人 。 可 是 ， 由 于 影星 一 般 
都 有 一 个 艺名 ， 所 以 也 可 用 这 个 名 字 作 为 Stars 的 键 。 不 然 就 用 name 和 address 一 对 属性 作为 键 ， 
这 应 该 令 人 满意 了 ， 除 非 有 两 位 同名 影星 住 在 同一 个 地 方 。 口 


2.20 ” 例 2.19 可 能 会 导致 人 们 认为 找 键 是 一 件 很 困难 的 事 ， 或 者 确信 要 由 属性 集 构成 键 。 
现实 中 事情 往往 更 简单 。 在 数据 库 所 模拟 的 现实 世界 中 ， 人 们 经 常 不 大 其 烦 地 针对 实体 集 创造 
出 一 些 键 。 例 如 ， 公 司 一 般 为 所 有 职工 分 配 职工 号 ID ， 这 些 ID 都 是 经 过 精心 挑选 以 达到 惟一 性 
的 。ID 的 目的 之 一 就 是 在 公司 数据 库 中 把 每 一 位 职工 同 其 他 职工 区 分 开 一 一 即使 有 人 同名 。 这 
样 ， 职 工 号 ID 就 可 作为 数据 库 中 的 键 了 。 

在 美国 的 公司 ， 一 般 每 位 职工 都 有 社会 保障 号 。 如 果 数 据 库 有 一 个 属性 为 社会 保障 号 ， 那 
么 这 个 属性 也 可 以 作为 键 。 注 意 ， 一 个 实体 集 有 几 个 键 的 选择 并 没有 错 ， 就 像 职工 可 以 同时 有 
职工 号 ID 和 社会 保障 号 一 样 。 

创造 一 个 属性 作为 键 的 想法 是 非常 普遍 的 。 除 了 职工 号 ID ， 人 们 发 现 学 号 ID 可 以 区 分 大 学 
的 学 生 。 在 机 动车 部 门 ， 驾 照 号 码 和 汽车 注册 号 码 可 以 分 别 区 分 驾驶 员 和 汽车 。 读 者 无 疑 可 以 
找到 更 多 这 样 的 例子 。 o 
2.3.3 E/R 模 型 中 键 的 表示 

在 E/R 图 中 ， 一 个 实体 集 的 键 属性 用 下 划 线 标 出 。 例如 ， 图 2- 17 是 图 2-2 的 重 画 ， 其 中 的 键 


属性 带 有 下 划 线 。 属 性 name 是 Stars 的 键 。 类 似 地 ，Studios 的 键 是 它 的 属性 name。 这 些 键 的 选 
择 与 例 2.19 的 讨论 一 致 。 





Cans) 


Studios 






图 2-17 用 下 划 线 标 出 键 的 E/R 图 


如 例 2.19 中 所 讨论 ， 属 性 title 和 year 一 起 构成 Movies 的 键 。 注 意 ， 有 下 划 线 的 属性 都 是 
键 的 成 员 ， 如 图 2-17 所 示 。 当 一 个 实体 有 几 个 键 时 ， 只 在 主键 下 划 线 。 还 要 注意 在 一 些 不 常 
见 的 情况 下 ， 一 个 实体 集 的 键 属 性 并 不 完全 属于 它 自己 ， 这 叫做 “ 弱 实 体 集 "， 将 稍 后 在 2.4 
节 讨 论 。 

2.3.4 单 值 约束 

通常 ， 数 据 库 设计 的 一 个 重要 特征 是 至 多 只 有 一 个 值 起 着 特殊 的 作用 。 例 如 ， 每 个 电影 实 
体 有 惟一 的 名 字 、 出 品 年 份 、 片 长 和 电影 类 型 ， 并 且 一 部 电影 只 属于 惟一 的 电影 公司 。 

在 E/R 模 型 中 有 几 种 表示 单 值 约束 的 方式 。 

1. 一 个 实体 集 的 每 个 属性 仅 有 一 个 值 。 有 时 ， 某 些 实体 的 某 一 属性 可 以 没有 值 ， 此 时 就 得 
创建 一 个 “ 空 值 ”作为 此 属性 的 值 。 例 如 ， 人 们 可 以 想像 ， 数 据 库 中 的 某 些 电 影片 长 未 知 。 此 
时 可 以 用 -1 代表 片 长 未 知 。 另 一 方面 ， 人 们 不 希望 一 电影 实体 的 键 属性 title 或 year 为 空 值 。 某 
一 属性 不 可 为 空 值 的 要 求 在 B/R 模 型 中 还 没有 特殊 的 表示 。 如 果 有 此 要 求 ， 可 以 在 属性 旁 加 个 
记号 声明 。 

2. 从 实体 集 E 到 F 的 多 对 一 联系 R 隐 含 着 一 个 单 值 约束 。 就 是 说 ， 对 E 中 的 每 一 个 实体 e， 在 
F 中 最 多 只 有 一 个 关联 实体 f。 更 一 般 地 ， 如 果 R 是 多 路 联系 ， 每 个 从 R 出 去 的 箭头 都 意味 着 一 个 
单 值 约束 。 特 殊 情况 下 ， 如 果 从 R 到 实体 集 E 有 一 个 第 头 ， 那 么 与 E 相 关联 的 实体 集中 每 个 实体 
至 多 对 应 E 的 一 个 实体 。 

2.3.5 引用 完整 性 

单 值 约束 是 要 求 对 一 给 定 角色 至 多 只 有 一 个 值 存在 ,而 引用 完整 性 约束 (referential 
integrity constraint ) 是 要 求 对 应 那个 角色 正好 只 有 一 个 值 存在 。 人 们 可 以 见 到 某 个 约束 要 求 属 
性 具有 非 空 的 值 ， 并 且 单 值 作为 一 种 引用 完整 性 要 求 是 需要 的 。 但 是 “引用 完整 性 ”更 多 地 用 
来 指 实体 集 之 间 的 联系 。 

考虑 一 下 图 2-2 中 从 Movies 到 Studios 的 多 对 一 联系 Owns。 简 单 地 说 ， 多 对 一 要 求 是 指 没有 
电影 可 以 被 一 个 以 上 电影 公司 所 拥有 , 但 并 不 是 说 一 部 电影 必须 被 一 个 电影 公司 所 拥有 , 或 者 ， 
如 果 它 被 某 个 电影 公司 所 拥有 ， 当 存 信 数据库 时 ， 那 个 电影 公司 就 必须 出 现在 实体 集 Studios。 

联系 Owns 上 的 引用 完整 性 将 要 求 对 每 部 电影 ， 其 所 属 的 电影 公司 ( 由 这 部 电影 的 联系 
“所 引用 ”的 实体 ) 必须 存在 于 数据 库 中 。 可 以 通过 几 种 方式 来 强制 这 个 约束 。 

1. 可 以 禁止 被 引用 实体 的 删除 〈 如 例子 中 的 电影 公司 )。 即 不 能 从 数据 库 中 删除 任何 电影 
公司 ， 除 非 它 不 拥有 电影 。 

2. 如 果 一 个 被 引用 的 实体 被 删除 ， 那 么 引用 它 的 所 有 实体 都 要 被 删除 。 例 子 里 要 求 如 果 删 
除了 一 家 电影 公司 ， 还 要 删除 其 拥有 的 所 有 电影 。 

除了 要 求 这 样 一 种 删除 策略 之 外 ， 还 要 求 当 一 个 电影 实体 插入 数据 库 时 ， 给 定 一 个 已 经 存 
在 的 Studios 实 体 ， 由 联系 Owns 与 其 相连 。 如 果 那 个 联系 的 值 变 了 ， 新 值 也 必须 是 一 个 已 经 存 
在 的 Studios 实 体 。 强 制 执 行 这 些 规则 以 保证 联系 的 引用 完整 性 属于 数据 库 实现 范畴 ， 在 此 不 讨 
论 其 细节 。 

2.3.6 E/R 图 中 的 引用 完整 性 

人 们 可 以 扩展 E/R 图 中 的 第 头 标记 ， 来 表示 一 个 联系 是 否 在 一 个 或 多 个 方向 上 支持 引用 完 
整 性 。 假 设 R 是 从 实体 集 E 到 实体 集 F 的 联系 ， 就 可 以 用 圆 第 头 指 向 F 表 示 此 联系 从 E 到 F 不 仅 是 
多 对 一 或 一 对 一 ， 而 且 要 求 与 给 定 的 E 实 体 相 联 系 的 F 实 体 必 须 存 在 。 当 R 是 多 个 实体 集 之 间 的 
联系 时 同样 如 此 。 
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” 例 2.21 图 2-18 显 示 了 实体 集 Movies、Studios 和 Presidents 之 间 一 些 引 用 完整 性 的 约束 。 对 
这 些 实体 集 和 联系 的 初次 介绍 是 在 图 2-2 和 2-3 中 。 图 中 可 以 看 见 一 个 圆 箭头 从 联系 Owns 指 向 
Studios。 此 箭头 表示 了 每 部 电影 必须 被 一 个 电影 公司 所 拥有 的 引用 完整 性 约束 ， 而 且 要 求 相 连 
的 电影 公司 必须 在 Studios 实 体 中 。 

类 似 地 ， 图 中 还 出 现 一 个 从 Runs 到 Studios 的 圆 箭头 。 它 表示 的 引用 完整 约束 是 说 每 位 经 理 
经 营 一 家 存在 于 Studios 实 体 集中 的 电影 公司 。 

注意 ， 从 Runs 到 Presidents 仍 然 是 尖 箭 头 。 这 个 选择 反映 了 一 个 电影 公司 及 其 经 理 间 的 合 
理 假定 。 如 果 一 个 电影 公司 不 存在 了 ， 相 应 的 经 理 也 就 不 需要 了 ， 此 经 理应 从 实体 集 
Presidents 中 删 去 ， 因 此 有 一 个 圆 箭 头 指 向 Studios。 另 一 方面 ， 如 果 从 数据 库 中 删 去 经 理 ， 那 
家 电影 公司 会 继续 存在 。 因 此 使 用 通常 的 尖 第 头 ， 表 示 每 家 电影 公司 有 至 多 一 位 经 理 ， 有 时 会 
没有 经 理 。 O 
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图 2-18 显示 引用 完整 性 约束 的 E/R 图 


2.3.7 其 他 类 型 的 约束 

如 本 节 开 头 所 说 ， 一 个 数据 库 中 可 能 会 有 其 他 类 型 的 约束 。 这 里 只 简单 提 及 ， 其 详细 讨论 
是 在 第 7 章 。 

域 约束 (domain constraint ) 是 指 属性 值 必须 取 自 一 个 有 限 集 的 约束 。 一 个 简单 的 例子 便 
是 属性 类 型 的 声明 。 更 强 的 域 约 束 可 能 是 为 属性 声明 枚 举 类 型 或 值 的 范围 ， 如 电影 的 length 属 
性 必须 是 从 0 到 240 之 间 的 整数 。 在 ER 模型 中 域 约束 没有 特殊 的 记号 ， 如 果 需 要 ， 可 以 在 属性 
旁边 放 一 个 记号 ,说 明 想 要 的 约束 。 

仍 有 很 多 的 常见 约束 没有 包含 人 本 节 的 分 类 中 。 例 如 ， 可 以 选择 对 联系 的 程度 加 以 约束 ， 
如 电影 实体 连 到 的 影星 实体 不 能 多 于 10 位 。 在 E/R 模 型 中 可 以 在 联系 到 实体 的 连 线 上 加 一 个 数 
字 ， 表 示 相 关 实 体 集 中 可 被 联系 到 的 实体 数目 约束 。 

例 2.22 图 2-19 显 示 了 如 何在 E/R 模 型 中 表示 出 演 一 部 电影 的 影星 不 能 超过 10 位 的 约束 。 作 
为 另 一 个 例子 ， 还 可 以 把 箭头 认为 是 约束 “<1” 的 同义词 ， 可 以 把 图 2-18 中 的 圆 箭头 认为 是 
约束 “=1”。 口 
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图 2-19 每 部 电影 的 影星 数目 约束 


2.3.8 习题 
习题 2.3.1 ”对 题目 
* a) 习题 2.1.1 
b) 习题 2.1.3 
c) 习题 2.1.6 
的 E/R 图 完成 如 下 工作 ， 
选择 并 指明 刍 
ii) 指出 适当 的 引用 完整 性 约束 
! 习题 2.3.2 可 以 认为 联系 像 实体 集 一 样 也 有 键 。 设 R 是 实体 集 包 、E,、…、 ,之 间 的 联系 。 
那么 R 的 键 是 从 E,、E,、…、E, 的 属性 中 选 出 的 腐 性 集 Kk， 使 得 如 果 len en e e) 和 
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(fi, fix ct. fo) 是 R 联 系 集中 的 两 个 不 同 元 组 ， 那 么 这 两 个 元 组 就 不 可 能 在 K 的 所 有 属性 
上 全 相同 。 现 在 ,假设 x = 2， 也 就 是 说 ，R 是 二 元 联系 。 并 且 ， 对 所 有 i， 设 KK 是 一 属性 集 ， 
表示 实体 集 E, 的 键 。 根 据 E, 和 Es 的 项 ， 对 下 述 R 给 出 一 个 最 小 的 键 : 
a) R 是 多 对 多 联系 
* b) R 是 从 El 到 EE, 的 多 对 一 联系 
c) R 是 从 E, 到 El 的 多 对 一 联系 
d) R 是 一 对 一 联系 
! 习题 2.3.3 ”继续 考虑 习题 2.3.2 的 问题 ， 允 许 n 是 任意 值 而 不 仅 是 2。 仅 利用 从 R 到 的 某 些 
连 线 有 箭头 的 信息 ,说明 如 何 根 据 K 的 项 找到 R 的 一 个 最 小 键 K。 
习题 2.3.4” 举 出 在 实际 生活 中 主要 是 为 用 作 键 而 创建 属性 的 例子 (与 例 2.20 不 同 )。 


2.4 弱 实 体 集 


偶尔 有 这 样 的 情形 ， 一 个 实体 集 的 键 是 由 另 一 个 实体 集 的 部 分 或 全 部 属性 构成 。 这 样 的 实 
体 集 叫做 能 实体 集 ( weak entity set )。 
2.4.1 弱 实 体 集 的 来 源 

弱 实体 集 主要 有 两 个 来 源 。 第 一 ， 有 时 实体 集 处 在 一 个 与 2.1.11 节 的 “isa 层次 ”无 关 的 层 
次 体系 中 。 如 果 集 合 E 中 的 实体 是 集合 F 中 实体 的 一 部 分 ， 那么 可 能 仅仅 只 考虑 E 实 体 的 名 字 将 
不 具有 惟一 性 ， 直 到 再 考虑 了 E 实 体 所 属 的 F 实 体 的 名 字 后 惟一 性 才 成 立 。 下 面 用 几 个 例子 说 
明 这 个 问题 。 

例 2.23 ”一 个 电影 公司 可 能 有 几 套 拍摄 班子 (或 称 工作 室 )。 这 些 拍摄 班子 可 能 被 一 家 电 
影 公司 指定 为 crew1、crew2 等 等 。 可 是 ， 其 他 电影 公司 也 可 能 用 相同 的 编号 ， 于 是 ，number 属 
性 不 能 成 为 拍摄 班子 的 键 。 为 了 惟一 地 命名 一 套 拍摄 班子 ， 需 要 同时 给 出 它 所 属 电影 公司 的 名 
字 和 它 本 身 的 编号 。 图 2-20 显 示 了 这 种 情况 。 弱 实体 集 Crews 的 键 是 它 自 己 的 number 属 性 和 
Studios 的 name 属 性 ，Crews 和 S$tudios 通 过 多 对 一 联系 Unit-ofe 相 连接 。 口 


例 2.24 ”一 个 种 由 它 的 属 和 它 的 种 名 所 确定 。 例 如 ， 人 是 Homo sapiens ( 智 人 类 ) 种 ; 
Homo ( 人 ) 是 属 名 ，sapiens (ARA ) 是 种 名 。 一 般 而 言 ， 属 由 几 个 种 构成 ， 每 个 种 都 有 一 
个 名 字 , 它 以 属 名 开头 ， 继 以 种 名 。 但 是 ， 种 名 自身 并 不 惟一 。 不 同 的 属 可 能 有 相同 种 名 的 种 。 
为 了 惟一 地 指定 一 个 种 ， 需 要 将 种 名 和 它 被 Belongs-to 联 系 连 接 到 的 属 名 结合 起 来 ， 如 图 2-21 
所 示 。Species 是 个 弱 实 体 集 ， 部 分 键 来 自 于 它 的 种 。 口 








图 2-20 弱 实 体 集 Crew 和 它 的 连接 图 2-21 另 一 个 弱 实 体 集 : 属 


第 二 个 弱 实体 集 的 来 源 是 2.1.10 节 介绍 的 连接 实体 集 , 它 被 作为 消除 多 路 联系 的 一 种 方法 2 
这 些 实体 集 经 常 没有 自己 的 属性 。 它 们 的 键 是 由 它们 所 连接 的 实体 的 键 属 性 构成 。 


日 ”双边 菱形 和 双边 方 框 将 在 2.4.3 节 解释 。 
O ict, 在 E/R 模 型 中 对 多 路 联系 的 消除 没有 特殊 要 求 ， 虽然 在 某 些 设计 模型 中 有 这 种 要 求 。 


-一 
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例 2.25 在 图 2-22 中 可 以 看 到 连接 实体 集 Contracts 代 替 了 例 2.5 中 的 三 重 联系 Contracts。 
Contracts 有 一 个 属性 salary， 但 并 不 是 键 。 合 同 的 键 由 电影 公司 的 名 字 、 参 演 影 星 的 名 字 、 电 
影 名 字 和 出 品 日 期 组 成 。 口 














图 2-22 连接 实体 集 是 弱 实 体 集 


2.4.2 ” 弱 实 体 集 的 要 求 

人 们 不 能 不 加 选择 地 去 获取 弱 实 体 集 的 键 属性 。 相 反 ， 如 果 E 是 弱 实 体 集 ， 则 它 的 键 组 成 
包括: . 
1. 若干 个 它 自己 的 属性 (也 可 没有 ) ; 

2. 通过 某 些 多 对 一 联系 从 E 到 达 其 他 实体 集 的 键 。 这 些 多 对 一 联系 称 为 E 的 支持 联系 
( supporting relationship )。 

为 了 使 从 E 到 某 个 实体 集 F 的 多 对 一 联系 R 成 为 E 的 一 个 支持 联系 ， 必 须 具备 下 面 的 条 件 : 

a) R 必 须 是 从 E 到 F 的 二 元 的 多 对 一 联系 9。 

b) R 必 须 有 从 E 到 FF 的 引用 完整 性 。 也 就 是 说 ， 对 于 每 个 E 实 体 ， 经 R 与 它 相 联系 的 实体 都 
必须 存在 于 实际 数据 库 中 。 换 言 之 ， 必须 有 一 个 从 R 到 F 的 圆 第 头 。 

c) F 提 供给 E 作 键 的 属性 必须 是 F 的 键 属性 。 

d 然而 ， 如 果 F 本 身 就 是 弱 实体 集 ， 那 么 F 提 供给 E 的 部 分 或 全 部 键 属性 是 FF 由 支持 联系 连 
接 的 一 个 或 多 个 实体 集 G 的 键 属性 。 同 样 的 ， 如 果 G 是 弱 实 体 集 ， 则 G 的 某 些 键 属性 又 将 由 另 
一 个 实体 集 提供 ， 如 此 继续 下 去 。 

e) 如 果 从 E 到 F 有 多 个 不 同 的 支持 联系 ， 那 么 每 个 联系 都 会 被 用 来 提供 一 份 F 的 键 的 拷贝 以 
帮助 E 的 键 的 形成 。 注 意 ，E 中 的 实体 e 通 过 不 同 的 支持 联系 被 连接 到 FF 中 的 不 同 实体 。 因此 , F 
的 几 个 不 同 实体 的 键 可 能 会 同时 出 现在 标识 E 的 一 个 特定 实体 e 的 键 值 中 。 

这 些 条 件 的 直观 解释 如 下 。 考 虚弱 实体 集中 的 一 个 实体 ， 比 如 例 2.23 中 的 拍摄 班子 。 抽 象 
地 讲 ， 每 个 拍摄 班子 是 惟一 的 。 人 们 能 够 区 分 不 同 的 班子 ， 即 使 它们 有 相同 的 编号 ， 但 是 属于 
不 同 的 电影 公司 。 所 以 拍摄 班子 的 信息 中 仅 包 含 编号 还 是 不 够 的 。 如 果 存 在 某 种 决定 性 过 程 能 
够 导出 附加 属性 值 ， 使 得 摄影 班子 能 被 惟一 指定 ， 那么 这 就 是 能 够 把 这 些 附 加 信息 与 拍摄 班子 


昌 ” 记 住 ,一 对 一 联系 是 多 对 一 联系 的 特例 。 当 说 联系 必须 是 多 对 一 时 ， 总 是 也 包括 了 一 对 一 联系 在 内 。 


关联 起 来 的 仅 有 方法 。 但 是 ， 仅 与 一 个 抽象 的 拍摄 班子 实体 联系 的 惟一 值 是 : 

1. 实体 集 Crews 的 属性 值 ; 

2. 依据 从 一 个 摄影 班子 实体 到 某 个 其 他 实体 集 的 惟一 实体 的 联系 所 获取 的 属性 值 ， 这 里 其 
他 实体 有 某 种 类 型 的 惟一 关联 值 。 就 是 说 ， 这 个 依据 的 联系 必须 是 指向 另 一 个 实体 集 F 的 多 对 
一 (或 特殊 情况 下 的 一 对 一 ) 联系 ， 并 且 相 关联 的 值 必须 是 F 的 键 的 一 部 分 。 

243 弱 实 体 集 的 符号 

用 下 面 的 约定 来 描述 一 个 实体 集 是 弱 实 体 集 ， 并 且 声 明 它 的 键 属性 。 

1. 如 果 一 个 实体 集 是 弱 实 体 集 ， 它 就 被 显示 为 双边 的 矩形 ， 例 如 图 2-20 中 的 Crews 和 图 2-22 
中 的 Contracts。 

2. 它 的 多 对 一 支持 联系 显示 为 双边 的 蓉 形 ， 例 如 图 2-20 中 的 Unitof 和 图 2-22 中 全 部 三 个 联系 。 

3. 如 果 一 个 实体 集 提 供 了 构成 它 自己 键 的 属性 ， 则 那些 属性 带 有 下 划 线 。 如 图 2-20 给 出 的 
例子 ， 图 中 摄影 班子 的 编号 虽然 不 是 Crews 键 的 全 部 ， 但 是 它 是 其 自身 的 键 的 一 部 分 。 

可 以 用 下 面 的 规则 概述 这 些 约定 : 

* 无 论 何 时 用 到 ,但 凡 实体 集 E 有 双边 ， 它 就 是 弱 实 体 集 。E 中 带 下 划 线 的 属性 ( 如 果 有 的 

话 )， 加 上 E 被 双边 的 多 对 一 联系 指向 的 实体 集 的 键 属性 ， 必 定 对 E 的 实体 是 惟一 的 。 

人 们 应 该 记 住 双边 的 萎 形 只 用 于 支持 联系 。 从 弱 实 体 集 引出 的 多 对 一 联系 有 可 能 不 是 支持 
联系 ， 因 此 也 就 不 是 双边 的 萎 形 。 

例 2.26 ”在 图 2-22 中 ， 联 系 Studio-of 不 必要 作为 Contracts 的 支持 联系 。 原 因 是 每 部 电影 只 
属于 一 家 电影 公司 ， 由 从 Movies 到 Studios 的 多 对 一 联系 (未 显示 ) 决定 。 因 此 ， 如 果 知 道 了 一 
位 影星 和 一 部 电影 的 名 字 ， 那 么 在 这 位 影星 、 这 部 电影 和 它们 所 属 的 电影 公司 之 间 最 多 只 有 一 
项 合同 。 根 据 记 号 所 表达 的 意 筷 ， 图 2-22 中 的 Studio-of 更 适合 用 一 个 普通 的 单 边 萎 形 而 不 是 双 
WEE. 口 
244 习题 

* 习题 2.4.1 ”表示 学 生 和 他 们 的 课程 成 绩 的 一 种 方式 是 用 相应 于 学 生 、 课 程 和 “注册 ”的 

实体 集 。 注 册 实 体 集 构成 学 生 和 课程 之 间 的 “连接 ”实体 集 ， 它 不 仅 可 以 用 来 表示 一 个 学 

生 选 了 某 门 课 ， 而 且 可 以 表示 选 此 课 的 学 生 的 成 绩 。 为 此 情况 画 一 个 EIR 图 ， 指 出 弱 实 体 

集 和 它 的 键 。 成 绩 是 注册 实体 集 键 的 一 部 分 吗 ? 

习题 2.4.2 ”修改 你 给 出 的 上 题 的 答案 ,以 便 可 以 记录 学 生 一 门 课 的 每 次 作业 的 成 绩 。 同 样 ， 

指出 弱 实 体 集 和 它 的 键 。 

习题 2.4.3 在 习题 2.2.6 (a) - (c) 的 E/R 图 中 ， 指 出 弱 实 体 集 、 支 持 联系 和 键 。 

习题 2.4.4 为 下 面 的 情况 画 出 包括 弱 实 体 集 的 E/R 图 。 对 每 种 情况 指出 实体 集 的 键 。 

a) 实体 集 Courses 和 Departments。 一 门 课 只 有 惟一 的 系 开 设 ， 但 它 仅 有 的 属性 是 它 的 
编号 。 不 同系 可 以 开设 具有 相同 编号 的 课 。 每 个 系 有 惟一 的 名 称 。 

"l b) 实体 集 包 括 Leagues、Teams 和 Players。 体 育 协 会 的 名 字 是 惟一 的 。 体 育 协会 中 没有 

同名 的 队 。 队 中 也 没有 两 个 相同 编号 的 选手 。 可 是 ， 不 同 队 中 可 以 有 相同 编号 的 选 
手 , 不 同体 育 协会 中 可 以 有 同名 的 队 。 


2.5 小 结 


“实体 /联系 模型 : 在 E/R 模 型 中 描述 了 实体 集 、 实 体 集 之 间 的 联系 、 实 体 集 和 联系 的 属性 。 
实体 集 的 成 员 叫 做 实体 。 
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“ERA: 分 别 用 和 矩形、 菱形 和 椭圆 来 表示 实体 集 、 联 系 和 属性 。 

“联系 的 多 样 性 :二 元 联系 可 以 是 一 对 一 联系 、 多 对 一 联系 、 或 多 对 多 联系 。 在 一 对 一 联 
系 中 ， 两 个 实体 集中 的 任 一 个 实体 至 多 只 能 与 另 一 个 实体 集中 的 一 个 实体 关联 。 在 多 对 
一 联系 中 ,“ 多 ”一 方 的 每 个 实体 至 多 只 能 与 另 一 方 的 一 个 实体 关联 。 多 对 多 联系 对 多 重 
性 不 加 限制 。 

“ 键 : 可 以 惟一 决定 一 个 给 定 实体 集中 实体 的 一 组 属性 是 该 实体 集 的 键 。 

“好 的 设计 : 高 效 地 设计 数据 库 ， 要 求 忠实 地 表达 现实 世界 ， 选 择 合适 的 元 素 ( 如 联系 、 
属性 )， 避 免 元 余 一 一 爷 余 是 指 一 件 事 表示 了 两 次 ， 或 者 是 用 一 种 间接 的 或 过 度 复杂 的 方 
式 表 示 一 件 事 。 

* 引用 完整 性 : 当 一 站 实体 由 给 定 的 联系 连 向 另 一 实体 集中 的 一 个 实体 时 ， 要 求 后 者 必须 
存在 于 数据 库 中 称 为 引用 完整 性 约束 。 

“ 子 类 : E/R 模 型 用 一 个 特殊 的 联系 isa 表 示 一 个 实体 集 是 另 一 个 实体 集 的 特例 。 实 体 集 可 
能 连 在 一 个 层次 结构 中 ， 其 中 每 个 子 节点 都 是 它 的 父 节点 的 特例 。 只 要 子 树 包 含 根 ， 那 
么 实体 集 可 以 拥有 属于 此 层次 中 任意 子 树 的 组 成 部 分 。 

"BER: 在 E/R 模 型 中 有 一 种 复杂 情况 是 弱 实体 集 ， 它 需要 用 该 实体 集 所 连接 的 实体 集 

的 属性 来 确定 它 自己 的 实体 。 用 双边 的 矩形 和 萎 形 来 区 分 弱 实 体 集 。 
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oe 关系 数据 模型 


尽管 第 2 章 中 所 介绍 的 实体 -联系 数据 模型 方法 对 于 描述 数据 结构 来 说 既 简 单 又 适合 ， 但 
现今 的 数据 库 实现 通常 使 用 另 一 种 方法 ， 称 做 关系 模型 ( relational model )。 关 系 模型 非常 有 
用 是 因为 它 只 有 一 个 数据 模型 概念 :“ 关 系 ”， 即 组 织 数 据 的 一 个 二 维 表 。 在 第 6 章 将 介绍 关系 
模型 怎样 支持 一 种 高 级 编程 语言 SQL (结构 化 查询 语言 )。SQL 使 我 们 只 需 编写 简单 的 程序 就 
可 以 对 存储 在 关系 中 的 数据 进行 强 有 力 的 操作 ， 而 E/R 模 型 通常 被 认为 不 宜 作 为 数据 操作 语言 
的 基础 。 

另 一 方面 ， 使 用 BE/R 符 号 易于 设计 数据 库 。 因 此 ， 首 先 要 考虑 怎样 把 使 用 BE/R 符 号 描述 的 设 
计 转 换 为 关系 ， 然 后 ， 研 究 关 系 自 己 的 设计 理论 ， 即 关系 的 “规范 化 ”理论 。 该 理论 主要 基于 
“函数 依赖 ”， 它 包含 并 扩展 了 2.3.2 节 中 已 简要 讨论 的 “ 键 ” 概 念 。 使 用 规范 化 理论 ， 在 对 于 在 
设计 中 如 何 选择 关系 去 描述 一 个 特定 的 数据 库 有 改进 作用 。 


3.1 关系 模型 的 基础 


关系 模型 为 人 们 提供 了 一 种 描述 数据 的 方法 : 一 个 称 之 为 关系 (relation ) 的 二 维 表 。 图 3-1 
就 是 一 个 关系 的 例子 。 关 系 名 是 Movies ， 它 的 目的 是 保存 本 书 例子 中 实体 集 Movies 的 实体 信 
息 。 图 中 的 每 一 行 对 应 一 个 电影 实体 ， 每 一 列 对 应 电影 实体 集合 的 一 个 属性 。 除 了 描述 实体 集 
合 之 外 ， 关 系 还 能 作 更 多 的 事情 。 


title year | length | filmType 
Star Wars 1977 | 124 color 
Mighty Ducks 1991 | 104 color 
Wayne’s World | 1992 | 95 color 


图 3-1 关系 Movies 


3.1.1 属性 

位 于 关系 最 上 一 行 的 是 属性 〈attribute )。 图 3-1 中 的 属性 是 title，year，length 以 及 
film Type。 关 系 的 属性 作为 关系 的 列 标题 。 通 常 ， 属 性 用 来 描述 所 在 列 的 项 目 。 例 如 ， 
length 属 性 列表 示 了 以 分 钟 为 单位 的 每 部 电影 放映 时 间 。 

注意 ， 图 3-1 中 关系 Movies 的 属性 和 实体 集合 Movies 的 属性 相同 。 虽 然 通常 是 把 一 个 实体 
集合 转化 为 具有 同一 属性 集合 的 关系 ,但 是 ,关系 中 的 属性 并 不 一 定 要 与 E/R 图 中 的 任 一 特定 
分 量 对 应 起 来 。 
3.1.2 模式 

关系 名 和 和 其 属性 集合 的 组 合 称 为 这 个 关系 的 模式 ( schema )。 描 述 一 个 关系 模式 时 ， 先 给 
出 关系 名 ， 其 后 是 用 加 括号 括 起 的 所 有 属性 。 图 3-1 的 Movies 关 系 模式 如 下 所 示 : 


Movies(title, year, length, filmType) 


关系 模式 中 的 属性 是 集合 ， 而 不 是 列表 。 然 而 ， 为 了 讲述 关系 ， 常 常 赋予 属性 一 个 “标准 " 
顺序 。 当 需要 介绍 具有 一 系列 属性 的 关系 模式 时 ， 常 以 这 个 标准 次 序 将 关系 或 关系 的 任意 一 行 
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显示 出 来 。 

一 项 关系 模型 设计 包括 一 个 或 多 个 关系 模式 。 这 个 关系 模式 的 集合 叫做 关系 数据 库 模 式 
(relational database schema )， 或 者 就 称 做 数据 库 模 式 (database schema )。 
3.1.3 元 组 

关系 中 除 含有 属性 名 所 在 行 以 外 的 其 他 行 称 做 元 组 〈(tuple )。 每 个 元 组 均 有 一 个 分 量 
(component ) 对 应 于 关系 的 每 个 属性 。 例 如 ， 图 3-1 中 ， 第 一 个 元 组 有 四 个 分 量 Star wars, 
1977、124 和 color， 它 们 分 别 对 应 于 属性 title、Yyear、Length 和 filmrype。 若 要 单 
独 表示 一 个 元 组 ， 而 不 是 把 它 作 为 关系 的 一 部 分 时 ， 常 用 去 号 分 开 各 个 分 量 ， 并 用 圆 括号 括 起 
来 。 例 如 ; 


(Star Wars, 1977, 124, color) 


是 图 3-1 的 第 一 个 元 组 的 表示 形式 。 从 这 个 形式 可 看 到 ， 当 单独 表示 元 组 时 ， 属 性 不 出 现 ， 因 
此 要 给 出 元 组 所 在 关系 的 标志 ， 这 个 标志 通常 就 是 属性 在 关系 模式 中 的 排列 次 序 。 
3.1.4 HÈ 
关系 模式 要 求 元 组 的 每 个 分 量具 有 原子 性 。 也 就 是 说 ， 它 必须 属于 某 种 元 素 类 型 tn 
integer 或 string， 而 不 能 是 记录 、 集 合 、 列 表 、 数 组 或 其 他 任何 可 以 被 分 解 成 更 小 分 量 的 
组 合 类 型 。 
进一步 假定 与 关系 的 每 个 属性 相关 联 的 是 一 个 域 ( domain )， 即 一 个 特殊 的 元 素 类 型 ， 关 
系 中 任 一 元 组 的 分 量 值 必须 属于 对 应 列 的 域 。 例 如 ， 图 3-1 关 系 Movies 中 元 组 分 量 所 对 应 的 域 
分 别 为 : string、integer、integer、 常 量 color 或 blackandwhite。 虽 然 域 是 关系 模 
式 的 内 容 ， 但 在 6.6.2 节 中 才 给 出 定义 域 的 方法 。 
3.1.5 关系 的 等 价 描述 
关系 是 元 组 的 集合 ， 而 不 是 元 组 的 列表 。 因 此 关系 中 元 组 出 现 的 顺序 不 是 实质 问题 。 例 如 ， 
图 3-1 中 三 个 元 组 有 六 种 可 能 排列 ， 却 均 表 示 同 一 个 关系 。 
关系 的 属性 次 序 可 以 任意 重 排 ， 而 关系 不 会 改变 。 但 重新 排序 关系 模式 时 ， 要 记 住 属性 是 
列 标题 。 因 此 ， 改 变 属性 的 次 序 时 ， 也 要 改变 它们 所 在 列 的 次 序 。 与 此 同时 ， 元 组 的 分 量 也 要 
进行 相应 的 移动 ， 其 排列 方式 应 与 属性 的 排列 方式 一 致 。 
例如 ， 图 3-2 是 图 3-1 的 行 和 列 的 多 种 重 排 方式 中 的 一 种 。 两 个 图 表示 的 是 同一 个 关系 。 
year | title | film Type | length 
1991 | Mighty Ducks color 104 


1992 | Wayne’s World | color 95 
1977 | Star Wars color | 124 


图 3-2 关系 Movies 的 男 一 种 表示 





3.1.6 关系 实例 

关系 movies 不 是 静态 的 ， 而 是 会 随时 间 改 变 的 。 人 们 希望 变化 会 通过 关系 的 元 组 表现 出 
来 。 例 如 : 插入 新 元 组 将 电影 加 入 到 数据 库 中 ;对 已 存在 的 元 组 信息 进行 修改 或 更 正 ; 或 者 因 
为 某 种 原因 删除 元 组 将 电影 从 数据 库 去 除 等 。 

关系 模式 并 不 经 常 改变 。 然 而 ， 在 有 些 情 况 下 需要 对 属性 进行 添加 和 删除 。 在 商业 数据 库 
系统 中 ， 模 式 可 以 改变 ， 但 代价 是 很 昂贵 的 ， 因 为 可 能 会 导致 需要 重 写 上 百 万 个 元 组 以 添加 或 
删除 元 组 分 量 。 若 要 添加 一 个 属性 ， 在 既 存 元 组 中 为 对 应 分 量 找到 正确 赋值 也 很 困难 ， 甚 至 是 
不 可 能 的 。 
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一 个 给 定 关系 中 元 组 的 集合 叫做 关系 的 实例 ( instance )。 例 如 ， 图 3-1 中 的 三 个 元 组 就 形 
成 了 关系 Movies 的 一 个 实例 。 随 着 时 间 的 流逝 ，Movies 已 经 发 生 了 改变 ， 而 且 还 将 继续 改 
变 下 去 。 例 如 ， 在 1980 年 ，Movies 中 并 不 包括 Mighty Ducks 和 Wayne's Wor1ld 这 两 个 元 
组 。 通 常 的 数据 库 系统 仅仅 只 维护 关系 的 一 个 版 本 ， 即 关系 的 “当前 ”元 组 集合 。 这 个 关系 实 
例 称 做 当前 实例 ( current instance )。 

3.1.7 习题 
习题 3.1.1 图 3-3 给 出 了 构成 部 分 银行 数据 库 的 两 个 关系 实例 。 请 指出 : 
a) 每 个 关系 的 属性 。 
b) 每 个 关系 的 元 组 。 
c) 每 个 关系 中 元 组 的 分 量 。 
d) 每 个 关系 的 模式 。 
e) 数据 库 模 式 。 
f) 每 个 属性 的 域 。 
8) 每 个 关系 的 另 一 个 等 价 描述 。 


acctNo | type balance 


12345 | savings 12000 
23456 | checking | 1000 
34567 | savings 25 


关系 Accounts 





firstName | lastName | idNo account 





Robbie Banks 901-222 | 12345 
Lena Hand 805-333 | 12345 
Lena Hand 805-333 | 23456 





关系 Customers 
图 3-3 银行 数据 库 中 的 两 个 关系 
! 习题 3.1.2 可 用 几 种 方法 表示 以 下 关系 实例 ( 考虑 元 组 和 属性 的 顺序 2 
* a) 与 图 3-3 中 的 关系 Accounts 一 样 有 三 个 属性 和 三 个 元 组 。 
b) 有 四 个 属性 和 五 个 元 组 。 
c) 有 n 个 属性 和 m 个 元 组 。 


3.2 从 E/R 图 到 关系 设计 


考虑 一 个 新 的 数据 库 的 建立 过 程 ， 比 如 电影 数据 库 。 首 先是 设计 阶段 ， 这 个 阶段 要 考 
虑 数据 库存 储 什 么 信息 、 信 息 单 元 之 间 有 什么 联系 、 可 以 有 哪些 约束 ， 如 键 约束 或 引用 完 
整 性 约束 ， 等 等 。 因 人 们 要 对 各 种 情况 进行 评价 并 在 意见 上 达成 一 致 ， 这 个 阶段 需要 很 长 
一 段 时 间 。 

接着 是 实施 阶段 ， 这 时 要 使 用 一 个 已 存在 的 数据 库 系统 。 因 为 大 多 数 的 商业 数据 库 系 统 使 
用 的 是 关系 模型 ， 故 可 以 假定 在 设计 阶段 使 用 的 也 是 关系 模型 ， 而 不 是 E/R 模 型 或 其 他 面向 设 
计 的 模型 。 

但 在 实践 中 先 使 用 E/R 图 进行 设计 ， 再 将 其 转化 为 关系 模型 会 更 加 简单 。 这 么 做 的 主要 原 
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因 是 关系 模型 仅 有 一 个 概念 : 关系 ， 而 不 是 像 E/R 模 型 那样 具有 许多 复杂 的 概念 ( 如 实体 集 和 
联系 )。 这 样 ， 在 设计 方案 确定 后 就 可 以 充分 利用 它 的 不 变性 。 












模式 和 实例 
不 要 忽视 关系 模式 和 关系 实例 之 间 的 区 别 。 模 式 是 关系 名 和 关系 属性 ， 是 相对 不 变 
的 。 实 例 是 关系 元 组 的 集合 ， 是 经 常 变化 的 。 
在 数据 模型 中 模式 和 实例 的 区 别 是 很 常见 的 ， 例 如 ， 实 体 集 和 联系 在 E/R 模 型 中 被 用 
来 描述 模式 ， 实 体 集 和 联系 集 形成 了 一 个 E/R 模 式 的 实例 。 不 管 怎样 ， 要 记 住 当 设 计数 
据 库 时 ， 数 据 库 实例 不 属于 设计 部 分 ， 只 需 想像 有 什么 样 的 典型 实例 即 可 。 


可 简单 明了 地 将 E/R 设 计 转 换 为 关系 数据 库 模式 : 

。 把 每 个 实体 集合 转化 为 具有 同一 属性 集合 的 关系 。 

。 用 关系 替换 联系 ， 关 系 的 属性 就 是 联系 所 连接 的 实体 集 的 键 集合 。 

这 两 条 规则 适用 于 大 多 数 情 况 ， 要 考虑 的 几 种 特殊 情况 是 ; 

1. 弱 实体 集 不 能 直接 转化 为 关系 。 

2. “isa” 联 系 和 子 类 要 特殊 对 待 。 

3. 有 时 需要 把 两 个 关系 合并 为 一 个 ,特别 是 当 一 个 关系 是 从 实体 集 E 转 化 而 成 ， 而 另 一 个 
关系 由 E 到 其 他 实体 集 的 一 个 多 对 一 的 联系 转化 而 来 时 ， 要 考虑 这 种 情况 。 
3.2.1 实体 集 到 关系 的 转化 

先 不 考虑 弱 实 体 集 。 弱 实体 集 的 转化 需要 作 些 修改 ， 对 此 将 在 3.2.4 节 中 讨论 。 对 其 他 任 一 
实体 集 ， 可 创建 一 个 同名 且 具 有 相同 属性 集 的 关系 。 因 为 实体 集 参与 的 联系 不 会 在 转化 后 的 关 

[66] 系 中 体现 出 来 ， 所 以 还 需要 用 单独 的 关系 处 理 联系 ， 这 一 点 将 在 3.2.2 中 进行 讨论 。 





图 3-4 电影 数据 库 的 E/R 图 


例 3.1 考虑 图 2-17 ( 重 画 为 图 3-4 ) 中 的 三 个 实体 集 Movies、Stars 和 Studios。Movies 实 体 
集 的 属性 分 别 是 title、year、 length 和 filmType。 转 化 后 的 结果 就 是 关系 Movies， 它 和 3.1 节 中 给 
出 的 图 3-1 相 似 。 

接着 考虑 图 3-4 中 实体 集 Stars。 它 有 两 个 属性 name 和 address。 因 此 ， 相应 的 关系 Stars 的 
模式 为 Star (name，address)。 这 个 关系 的 一 个 典型 实例 如 下 所 示 : 


-一 一 一 一 





name | address 


Carrie Fisher | 123 Maple St., Hollywood 
Mark Hamill 456 Oak Rd., Brentwood 


Harrison Ford | 789 Palm Dr., Beverly Hills 








3.2.2 E/R 联 系 到 关系 的 转化 

E/R 模 型 中 的 联系 也 可 以 用 关系 表示 。 一 个 给 定 联系 R 的 关系 有 下 列 属性 : 

1. 联系 R 涉 及 的 每 一 个 实体 集 的 键 属性 或 键 属性 集 都 是 由 R 转 化 成 的 关系 模式 的 一 部 
分 。 

2. 如 果 这 个 联系 有 属性 ， 则 它们 也 是 由 R 转 化 成 的 关系 中 的 属性 。 

如 果 一 个 实体 集 以 不 同 的 角色 在 联系 中 多 次 出 现 ， 则 它 的 键 属性 出 现 的 次 数 与 角色 出 现 次 
数 相同 。 为 了 避免 重 名 ， 必 须 对 这 些 键 属性 重新 命名 。 更 普遍 的 情况 是 ， 只 要 R 本 身 的 属性 和 
与 其 相连 的 实体 集 的 键 属性 有 同名 ， 就 要 对 这 些 属性 重 命名 。 


关于 数据 质量 :-) 
为 使 举例 中 的 数据 尽 可 能 的 精确 并 尊重 影星 们 的 隐私 权 ， 我 们 使 用 了 一 些 擅 造 的 关 


于 影星 的 地 址 和 其 他 个 人 信息 的 数据 。 





例 3.2 考虑 图 3-4 中 的 联系 Owns。 它 连接 了 实体 集 Movies 和 Studios。 则 owns 的 关系 模 
式 中 含有 Movies 的 键 属 性 title 和 year， 以 及 studios 的 键 name。 于 是 ， 它 的 关系 模 
式 为 : 


Owns(title, year, studioName) 
这 个 关系 的 实例 样本 为 : 


title year | studioName 
Star Wars 1977 | Fox 
Mighty Ducks 1991 | Disney 
Wayne’s World | 1992 | Paramount 


为 了 清晰 起 见 ， 这 里 选择 studioName 作 为 属性 名 ， 与 studios 中 的 属性 name 相 对 
应 。 口 


例 3.3 同样 ,图 3-4 中 的 联系 Star-in 可 转化 成 具有 属性 title、year ( Movies 的 键 属性 集 ) 
和 starName(Stars 的 键 属性 ) 的 关系 ， 图 3-5 给 出 了 关系 样本 Star-In。 
因为 图 3-5 中 电影 的 tit1e 值 是 惟一 的 ， 因 此 看 上 去 year 属 性 是 多 余 的 。 但 是 ， 也 会 存在 
很 多 同名 的 电影 ， 如 “king kong”， 所 以 有 必要 同时 使 用 年 份 来 区 分 哪 位 影星 在 电影 的 哪个 版 
本 中 出 演 。 D 
title __| year | starName 


Star Wars Carrie Fisher 
Star Wars Mark Hamill 
Star Wars Harrison Ford 
Mighty Ducks Emilio Estevez 
Wayne’s World Dana Carvey 
Wayne’s World Mike Meyers 


图 3-5 从 联系 Stars-In 得 到 的 关系 
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3.4 ”把 多 路 联系 转化 为 关系 也 很 容易 。 
考虑 图 2-6( 在 图 3-6 中 重新 给 出 ) 中 的 四 路 联 
系 Contracts ， 涉 及 一 个 Star， 一 个 Movie ， 两 个 












Studios 一 一 一 个 拥有 影星 ， 另 一 个 制作 电影 。 
若 用 一 个 关系 Contracts 来 描述 ， 则 关系 模式 Studio Producing 


包含 以 下 四 个 实体 集 属性 : 

1. Star 的 键 starName。 

2. Movie #titlefilyear, 

3. 标识 第 一 家 电影 制 片 厂 名 字 的 键 studio- 
ofstar。 前 面 曾 假设 电影 制 片 厂 的 名 字 是 实体 集 Studios 的 键 。 

4. 标识 电影 公司 名 字 的 键 producingstudio， 而 这 家 制 片 厂 制作 某 位 影星 出 演 的 某 部 电 
影 。 

这 就 是 说 ， 这 个 关系 模式 为 : 

Contracts(starName, title, year, studio0fStar, producingStudio) 

注意 ， 在 这 个 关系 模式 中 使 用 的 属性 名 并 不 是 任何 属性 的 “名 字 ”， 因 为 若 这 样 的 话 ， 就 

不 知道 它 到 底 指 的 是 影星 的 名 字 ， 还 是 制 片 厂 的 名 字 ， 车 是 制 片 厂 名 字 ， 又 是 指 哪 一 家 制 片 

r? 并 县 ， 如 果实 体 集 Coatracts 也 有 属性 ， 比 如 salary， 和 那么 这 些 属 性 都 要 添加 到 关系 
Contracts 的 关系 模式 中 。 m 


3.2.3 组 合 关系 

有 时 从 实体 集 和 联系 转化 而 来 的 关系 ,对 于 给 定 的 数据 而 言 并 不 是 最 好 的 。 一 个 较 普 遍 的 
例子 是 ， 如 果 存 在 一 个 实体 集 E 和 一 个 从 E 到 F 的 多 对 一 联系 R， 则 经 转化 后 所 得 到 的 关系 模式 E 
和 R 都 含有 E 的 键 属性 。 而 且 ， 从 E 得 到 的 关系 模式 中 还 包含 E 中 的 非 键 属性 ， 从 R 得 到 的 关系 模 
式 中 也 包含 F 中 的 键 和 R 中 的 所 有 属性 。 由 于 R 是 多 对 一 联系 ，E 的 键 已 确定 了 这 些 属性 的 惟一 
值 ， 因 此 可 把 它们 组 合 在 一 个 关系 中 ， 相 应 的 模式 包含 : 

1. E 的 所 有 属性 。 

2. F 的 键 属性 。 

3. 联系 R 的 任何 属性 。 

对 于 一 个 不 与 F 相 连 的 E 中 的 实体 e 而 言 ， 上 述 的 >，3 类 属性 在 e 元 组 中 的 相应 分 量 上 为 空 值 。 
空 值 在 2.3.4 中 已 有 过 介绍 , 它 的 引入 是 为 了 描述 失去 值 或 未 知 值 。 空 值 不 是 关系 模型 的 正式 内 容 ， 
记 作 NurL， 在 SQL 语言 中 可 用 。 本 书 采用 ER 设计 对 关系 数据 库 模 式 进行 描述 时 使 用 了 空 值 。 

例 3.5 在 电影 数据 库 的 例子 中 ，Owns 是 一 个 连接 Movies 和 Studios 的 多 对 一 联系 。 例 3.2 中 
给 出 了 它 到 关系 的 转化 ， 实 体 集合 Movies 到 关系 的 转化 也 已 在 例 3.1 中 给 出 。 取 出 它们 的 属性 
进行 连接 ， 所 得 的 关系 模式 如 图 3-7 所 示 : 


图 3-6 联系 Contracts 


title year | length | filmType | studioName 
Star Wars 1977 | 124 color Fox 
Mighty Ducks 1991 | 104 color Disney 
Wayne’s World | 1992 | 95 color Paramount 


图 3-7 组 合 关系 Movies 和 owns 


之 所 以 按 这 种 方式 组 成 关系 ,是 因为 把 依赖 于 E 的 键 属性 的 所 有 属性 组 合 在 一 个 关系 中 有 
很 多 优点 ， 即 使 是 有 多 条 从 E 到 其 他 实体 集 的 多 对 一 的 联系 时 也 如 此 。 例 如 ， 涉 及 一 个 关系 的 


属性 查询 比 涉及 多 个 关系 的 属性 查询 效率 更 高 。 实 际 上 ， 一 些 基于 E/R 模 式 的 设计 系统 可 以 自 


动 地 为 用 户 组 合 这 些 关 系 。 
另 一 方面 ， 有 人 可 能 想 把 E 和 涉及 E 但 并 不 是 从 E 到 其 他 实体 的 多 对 一 联系 R 组 合成 关系 。 
这 么 做 是 危险 的 ， 因 为 这 样 常常 会 造成 元 余 ， 关 于 元 余 的 问题 将 在 3.6 节 讨论 。 口 


例 3.6 为 了 说 明 可 能 产生 错误 组 合 ， 假 设 要 将 图 3-7 中 的 关系 和 多 对 多 联系 Stars-in 组 合 起 
来 ，Stars-in 在 图 3-5 中 给 出 。 所 得 到 的 组 合 关系 在 图 3-8 中 给 出 。 

















title year | length | filmType | studioName | starName 

Star Wars | 1977 | 124 color Fox | Carrie Fisher 
Star Wars 1977 | 124 color Fox Mark Hamill 
Star Wars 1977 | 124 color Fox Harrison Ford 
Mighty Ducks 1991 | 104 color Disney Emilio Estevez 
Wayne’s World | 1992 | 95 color Paramount | Dana Carvey 
Wayne’s World | 1992 | 95 color Paramount | Mike Meyers 


图 3-8 带 有 影星 信息 的 关系 Movies 


因为 一 部 电影 可 以 有 多 个 影星 ,所 以 对 于 每 一 个 影星 ， 就 不 得 不 重复 这 部 电影 的 所 有 信息 。 
在 图 3-8 中 ，Star Wars 的 1ength 对 应 三 个 影星 重复 了 三 次 ，Fox 也 一 样 ， 因为 这 部 电影 是 由 
Fox 制 作 。 这 种 元 余 是 不 希望 出 现 的 ，3.6 节 中 讲述 的 关系 数据 库 设 计 理 论 其 目的 就 是 要 分 离 类 
似 图 3-8 所 示 的 关系 以 消除 元 余 。 口 


3.2.4 处 理 弱 实体 集 

者 需 转 化 ER 图 中 的 一 个 弱 实体 集 时 ， 需 要 做 下 面 三 件 事 ; 

1. 从 愉 实 体 集 W 得 到 的 关系 不 仅 要 包含 W 的 属性 ， 还 包含 有 助 于 形成 Ww 的 键 的 其 他 实体 集 
的 键 属性 。 显 而 易 见 这 样 做 有 利于 实体 集 ， 因 为 可 从 W 引 出 的 支持 联系 ( OR) 访问 到 
它们 。 

2. 与 弱 实 体 集 W 相 连 的 联系 ， 经 转化 后 所 得 的 关系 必须 把 那些 和 Ww 相连 的 ， 以 及 对 W 的 键 
有 用 的 ， 实 体 集 的 键 属性 作为 Ww 的 键 。 

3. 然而 ， 从 弱 实体 集 杯 指向 其 他 有 助 于 形成 本 的 键 的 实体 集 的 支持 联系 R 不 必 转 化 为 关系 。 
理由 就 是 ， 如 同 3.2.3 节 讨论 的 ， 由 多 对 一 联系 R 转 化 得 到 的 关系 的 属性 可 从 Ww 的 属性 ， 也 可 以 
与 W 的 关系 模式 进行 组 合 ( 在 R 有 属性 的 情况 下 )。 

当然 ， 当 引入 附加 属性 来 建立 一 个 弱 实 体 集 的 键 时 ， 要 注意 不 要 重复 使 用 同一 个 名 字 。 如 
果 有 必要 ， 要 对 其 中 部 分 或 所 有 的 属性 进行 重 命名 。 

例 3.7 ”考虑 图 2-20 中 的 弱 实体 集 Crews， 该 图 在 图 3-9 中 重新 给 出 。 图 表 有 三 个 关系 ， 关 系 
模式 分 别 为 ; 

Studios(name, addr) 


Crews (number, studioName) 
Unit-of (number, studioName, name) 


第 一 个 关系 Studios 是 从 同名 实体 集 直 接 转化 而 来 。 第 二 个 关系 Crews 是 由 弱 实 体 集 
Crews 转 化 得 到 ， 它 的 属性 是 相应 弱 实 体 集 的 键 属性 ， 如 果 弱 实体 集 Crews 还 有 非 键 属性 ， 则 
也 要 包含 在 关系 Crews 模 式 中 。 可 以 用 studioName 作 为 关系 crews 的 属性 来 与 实体 集 
Studios 的 name 相 对 应 。 

第 三 个 关系 Unit-of 也 由 同名 联系 转化 而 来 。 根 据 前 面 的 描述 ， 它 的 属性 由 与 联系 
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Unit-of 相 连 的 实体 集合 的 键 属性 组 成 。 在 这 个 例子 中 ，Unit-of 的 属性 有 number， 
studioName ( 弱 实体 集合 Crews 的 键 属性 ) 和 name ( 实体 集合 Studios 的 键 属性 )。 要 注意 ， 
由 于 Unit-of 是 个 多 对 一 的 联系 ，studioName 等 同 于 name。 








图 3-9 弱 实体 集 crews 






带 有 子 集 模式 的 关系 

根据 例 3.7， 似 乎 只 要 关系 及 含有 的 属性 集合 是 另 一 个 关系 8 属性 集合 的 子 集 ， 就 可 消 
除 R。 但 是 ,这 种 说 法 并 不 完全 正确 。 因 为 5 的 附加 属性 不 允许 把 R 的 元 组 扩展 成 5 的 元 组 ， 
所 以 R 可 能 含有 5S 中 没有 的 信息 。 

例如 ， 国 家 税收 局 (Internal Revenue Service ) 要 维护 关系 People (name, ss# ), 
其 中 含有 可 能 的 纳税 人 的 名 字 和 他 们 的 社会 保险 号 ， 而 不 管 他 们 是 否 有 收入 。 税 收 局 还 
要 维护 关系 TaxPayers (name, ss#, amount), 其 中 的 属性 amount 表 示 今 年 以 来 
纳税 人 所 交 的 税金 。People 的 属性 集合 是 TaxPayers 属 性 集合 的 子 集 ， 但 在 People 
中 保存 着 的 纳税 人 的 社会 保险 号 在 TaxPayers 中 却 可 能 没有 。 

事实 上 ， 即 使 是 同一 个 属性 集合 也 会 有 不 同 的 语义 ， 所 以 不 可 能 合并 它们 的 元 组 。 
例如 ， 对 于 两 个 关系 Stars (name, addr) #Studios (name，addr )， 虽 然 它 们 
看 起 来 相似 ， 却 不 能 把 star 的 元 组 改 为 studios 的 元 组 ， 反之 亦 然 。 

田 一 方面 ， 如 果 两 个 关系 分 别 由 弱 实 体 集 构 造 和 对 应 的 支持 联系 转化 过 来 ， 那 么 对 
于 属性 集合 较 小 的 关系 而 言 ， 它 就 不 包含 另外 的 信息 。 这 是 因为 支持 联系 得 到 的 关系 的 
元 组 与 弱 实 体 集 所 得 到 关系 的 元 组 一 一 对 应 。 此 时 可 以 除去 具有 较 少 属性 的 关系 。 


假设 弥 工 作 室 隶 属于 迪斯尼 公司 。 那 么 联系 unit-of 应 包含 


(Disney-~crew-#3, Disney ) 


而 转化 为 关系 后 ， 应 包含 元 组 


(3, Disney, Disney ) 


从 这 个 例子 可 以 看 到 ,属性 studioName 和 name 在 转化 后 的 关系 中 具有 相同 的 含义 。 这 
就 是 说 ， 可 以 把 属性 s tudioName 和 name 合 并 起 来 ， 得 出 它 的 简单 模式 : 

Unit-of (number, name) 

此 时 由 于 Unit-of 和 Crews 一 样 ， 就 不 用 对 它 进 行 转化 。 口 

例 3.8 下 面 考虑 例 2.25 给 出 的 弱 实 体 集 Contracts 和 2.4.1 节 中 的 图 2-22。 图 2-22 在 图 3-10 中 
重新 给 出 。Contracts 转 化 后 的 关系 模式 为 


Contracts(starName, studioName, title, year, salary) 


其 中 ，s tarName 是 对 Stars 键 的 重 命名 ， studioName 是 对 Studios 键 的 重 命名 ， 
title 和 year 这 两 个 属性 形成 了 Movies 的 键 ，salary 是 Contracts 自 身 的 属性 。 联 系 Star-of ， 
Studio-of，Movie-of 没 有 相应 的 关系 ， 但 它们 各 自 所 形成 的 关系 模式 都 是 contracts 的 真 
子 集 。 
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图 3-10 kH Contracts 


顺带 再 说 一 下 ， 上 述 关系 与 从 图 2-7 所 示 BAR 图 获得 的 关系 完全 相同 。 图 2-7 中 的 Contracts 
是 个 三 路 联系 ， 分 别 连接 Stars ，Movies 和 Studios， 本 身 含 有 一 个 属性 salary。 口 
从 例 3.7 和 例 3.8 中 可 看 出 : 支持 联系 不 需要 转化 为 关系 。 这 一 点 对 于 弱 实 体 集 是 通用 的 。 
下 面 给 出 将 弱 实 体 集 转化 为 关系 的 修改 规则 。 
。 若 W 是 一 个 弱 实 体 集 ， 则 W 转 化 为 关系 后 的 模式 由 以 下 项 目 组 成 : 
1. W 的 所 有 属性 。 
2. 与 W 相 连 的 支持 联系 的 所 有 属性 。 
3. 对 每 一 个 连接 W 的 支持 联系 ( 即 从 W 到 实体 集 的 多 对 一 联系 )， 要 包含 E 的 所 有 键 属 性 。 
为 了 避免 同名 冲突 ， 必 要 时 要 对 某 些 属性 进行 重 命名 。 
。 不 要 为 与 W 相 连 的 支持 联系 构造 关系 。 
3.2.5 习题 
* 习题 3.2.1 把 图 3-11 中 的 E/R 图 转化 为 一 个 关系 数据 库 模 式 。 
| 习题 3.2.2 ”存在 另 一 个 ER 图 描述 图 3-11 中 的 弱 实 体 集 Bookings。 注 意 ， 机 票 可 由 航班 导 
(flight number )、 航 班 日 期 (day )、 座 位 的 排 号 (row) 和 座位 号 (seat) 惟 一 确定 ， 而 与 顾 
客 的 信息 无 关 。 
a) 对 图 3-11 中 的 图 进行 修改 ， 使 其 可 以 反映 新 的 观点 。 
b) 把 (a) 中 所 得 的 图 转化 为 关系 。 所 得 的 关系 数据 库 模式 与 习题 3.2.1 中 的 相同 吗 ? 





图 3-11 关于 飞机 航班 的 E/R 图 图 3-12 姊妹 船 的 E/R 图 
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* 习题 3.2.3 ”图 3-12 中 的 E/R 图 表示 船上 只， 如 果 不 同 船只 (ship) 出 自 于 同一 份 设计 方案 ， 
则 认为 它们 是 姊妹 〈sister )。 把 这 个 图 转化 为 关系 数据 库 模式 。 
习题 3.2.4 ”把 下 面 的 E/R 图 转化 为 关系 数据 库 模式 。 
a) 图 2-22。 
b) 习题 2.4.1 的 结果 
c) 习题 2.4.4(a) 的 结果 。 
d) 习题 2.4.4(b) 的 结果 。 


3.3 子 类 结构 到 关系 的 转化 


有 几 种 策略 把 一 个 isa 层 次 实体 集 转化 为 关系 。 对 于 这 种 层次 ， 已 有 如 下 假定 ; 

。 这 个 层次 中 有 一 个 根 实体 集 。 

。 这 个 层次 实体 集 有 一 个 可 惟一 确定 层次 中 每 个 实体 集 的 键 。 

。 一 个 给 定 的 实体 可 能 会 包含 属于 这 个 层次 中 某 些 子 树 的 实体 集 的 分 量 ， 只 要 这 个 子 树 包 

含 根 。 

主要 的 转化 策略 是 : 

1. 遵照 E/R 观 点 。 为 任 一 个 在 层次 中 的 实体 集 创建 一 个 关系 ， 它 包含 根 的 键 属性 和 实体 集 
自身 属性 。 l 

2. 把 实体 看 做 属于 单个 类 的 对 象 。 为 每 个 包含 根 的 子 树 创 建 一 个 关系 ， 这 个 关系 模式 包括 
子 树 中 所 有 实体 集 的 所 有 属性 。 

3. 使 用 空 值 (null value )。 创 建 一 个 包含 层次 中 所 有 实体 集 属性 的 关系 。 每 个 实体 由 一 个 
元 组 表示 ， 对 于 实体 不 具有 的 属性 ， 则 设 该 元 组 的 相应 分 量 为 空 。 

下 面 依次 讨论 上 述 方法 。 
3.3.1 E/R 方 式 转化 

第 一 种 方法 是 同 往常 一 样 为 每 个 实体 
集 建立 关系 。 如 果实 体 集 E 不 是 层次 中 的 根 ， 
为 了 能 够 区 别 用 元 组 表示 的 实体 ， 由 E 转 化 
成 的 关系 要 包含 根 的 键 属性 和 E 本 身 属性 。 
并 且 ， 如 果 E 和 其 他 实体 集 间 存 在 联系 ， 就 
在 此 联系 生成 的 关系 中 ， 使 用 这 些 键 属性 
识别 E 中 的 实体 。 

要 注意 的 是 ,虽然 “isa” 被 认为 是 联 
AR, 但 它 与 其 他 联系 不 同 。 它 关联 的 是 单 
个 实体 的 分 量 ， 而 不 是 实体 。 因 此 ， 不 能 图 3-13 movie 层 次 
为 “isa” 创 建 关系 。 

例 3.9 ”考虑 图 2-10 给 出 的 层次 ， 图 2-10 由 图 3-13 重 新 给 出 。 这 个 层次 中 四 个 不 同 实体 转化 
成 的 关系 为 : 

1. Movies (title，Yyear，1ength，filmrype)。 这 个 关系 已 在 例 3.1 中 进行 过 讨论 ， 
在 这 里 每 部 电影 由 一 个 元 组 表示 。 

2. MurderMysteries(title, year, weapon)。 前 面 两 个 属性 是 Movi es 的 键 ， 
最 后 一 个 属性 是 实体 集 本 身 的 属性 。 每 部 凶杀 片 在 此 关系 中 和 在 Movies 关 系 中 都 对 应 一 个 
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元 组 。 

3. Cartoons (title, year)。 这 个 关系 是 卡通 片 的 集合 。 它 只 包含 了 Movies 的 键 属 
性 ， 这 是 因为 关于 卡通 片 的 其 他 信息 均 包 含 在 联系 Voices 中 。 每 部 卡通 电影 在 此 关系 中 和 在 
Movies 关 系 中 分 别 对 应 一 个 元 组 。 

要 注意 的 是 : 第 四 种 电影 ， 那 些 既 属于 卡通 片 又 属于 凶杀 片 的 电影 在 这 三 个 关系 中 均 有 元 
组 存在 。 

另外 ， 还 要 构造 与 Stars 和 Cartoons 之 间 联 系 Voices 相 对 应 的 关系 Voices (title， year, 
starName) 。 其 中 最 后 一 个 属性 是 Stars 的 键 属性 ， 前 两 个 属性 组 成 实体 集 Cartoons 的 键 。 

例如 ， 电 影 Roger Rabbit 作 为 元 组 将 会 在 这 四 个 关系 中 出 现 。 它 的 基本 信息 将 会 在 Movies 
中 出 现 ， 凶 手 的 凶器 (weapon) 在 关系 MurderMysteries 中 出 现 ， 为 此 电影 配音 的 演员 会 
在 关系 Voices 中 出 现 。 

要 注意 关系 Cartoons 的 模式 是 关系 Voices 模式 的 子 集 。 在 很 多 情况 下 ， 我 们 急于 消去 
Cartoons 关 系 ， 因为 它 并 未 包含 与 voices 有 所 不 同 的 信息 。 然而 ， 数 据 库 中 可 能 会 有 一 些 
无 声卡 通 片 。 这 些 卡 通 片 没有 配音 ， 于 是 这 些 电 影 也 是 卡通 片 的 信息 就 会 被 忽略 掉 。 

3.3.2 面向 对 象 的 方法 

把 isa- 层 次 转化 为 关系 有 另 一 个 方法 ， 就 是 枚 举 层 次 中 所 有 可 能 的 子 树 。 为 每 一 个 子 树 构 
造 一 个 可 以 描述 该 子 树 中 实体 的 关系 。 这 个 关系 模式 含有 子 树 中 所 有 实体 集 的 所 有 属性 。 因 为 
这 种 方法 的 前 提 是 假设 这 些 实体 是 属于 且 仅 属于 一 个 类 的 “对 象 "， 所 以 这 种 方法 被 称 为 “ 面 
向 对 象 ”的 方法 。 

例 3.10 考虑 图 3-13 的 层次 。 有 四 个 可 能 的 包含 根 的 子 树 : 

1. Movies 本 身 。 

2. 仅 有 Movies 和 Cartoons。 

3. 仅 有 Movies 和 Murder-Mysteries。 

4. 所 有 三 个 实体 集 。 

下 面 给 出 这 四 个 类 构造 的 关系 ， 因 为 只 有 Murder-Mysteries 有 自身 的 属性 ， 因 此 实际 上 存 
在 着 重复 ， 这 四 个 关系 是 : 

Movies(title, year, length, filmType) 

MoviesC(title, year, length, filmType) 

MoviesMM(title, year, length, filmType, weapon) 

MoviesCMM(title, year, length, filmType, weapon) 

如 果 Cartoons 含 有 自身 特有 的 属性 ， 则 以 上 四 个 关系 将 会 有 不 同 的 属性 集合 。 然而 情况 并 
不 是 这 样 ， 所 以 ， 虽 然 会 丢失 一 些 信息 ， 比 如 委 失 了 属于 卡通 片 的 电影 信息 。 人 们 仍 将 可 以 将 
Movies 和 MoviesCc 组 合 为 不 包含 凶杀 片 的 关系 ， 也 可 以 将 MoviesMM 和 MoviesCMM 组 合 为 
包含 所 有 凶杀 片 的 关系 。 

人 们 还 需要 考虑 怎样 处 理 连接 Cartoons 和 Stars 的 联系 Voices。 如 果 Voices 是 一 个 从 Cartoons 
引出 的 多 对 一 的 联系 ， 就 可 以 增加 一 个 voice 属 性 到 Moviesc 和 MoviescMM 中 ， 这 个 属性 可 以 
描述 联系 Voices， 并 且 有 使 这 四 个 关系 模式 不 同 的 副作用 。 可 是 ， Voices 是 一 个 多 对 多 的 联 
系 ， 因 此 就 要 为 这 个 联系 单独 创建 一 个 关系 。 如 同 惯例 ， 它 的 关系 模式 包含 了 与 其 相连 的 实体 
集 的 键 属性 。 这 种 情况 下 它 的 模式 为 


Voices(title, year, starName) 
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人 们 可 以 考虑 是 否 有 必要 建立 两 个 这 样 的 关系 ， 一 个 连接 不 是 凶杀 片 的 卡通 片 到 它 的 配音 
演员 ， 另 一 个 连接 是 凶杀 片 的 卡通 片 与 配音 演员 相关 联 。 然 而 ,这样 做 似乎 并 没有 高 明之 
处 。 口 
3.3.3 使 用 空 值 组 合 关系 

有 很 多 种 表示 实体 集 层 次 信息 的 方法 。 如 果 人 允许 NULL ( 就 像 SQL 中 的 空 值 ) 作为 元 组 值 ， 
就 可 以 对 一 个 实体 集 层 次 只 创建 一 个 关系 。 这 个 关系 包含 了 层次 中 所 有 实体 集 的 所 有 属性 ， 
一 个 实体 表现 为 关系 中 的 一 个 元 组 。 元 组 中 的 NULL 表 示 该 实体 没 定义 的 属性 。 

例 3.11 若 把 这 种 方法 应 用 于 图 3-13， 就 可 以 得 到 相应 的 关系 模式 为 ; 


Movie(title, year, length, filmType, weapon) 


那些 非 凶杀 类 的 电影 在 元 组 中 的 weapon 为 NULL。 但 有 必要 创建 一 个 如 例 3.10 中 的 
voices 关 系 ， 因 为 要 用 它 来 连接 卡通 片 和 为 该 卡通 片 配音 的 演员 。 口 


3.3.4 各 种 方法 的 比较 l 

上 述 三 种 方法 分 别 被 称 为 “直接 E/R”,“ 面 向 对 象 ” 和 “ 空 值 ”方法 。 它 们 各 自 均 有 优 缺 
点 ， 这 里 列 出 其 主要 的 几 点 。 | 

1 由 于 涉及 几 个 关系 的 查询 代价 高 晶 ， 所 以 人 们 宁愿 在 一 个 关系 中 寻找 查询 需要 的 所 有 属 
性 。“ 空 值 ”方法 对 于 所 有 的 属性 只 使 用 一 个 关系 ,在 这 一 点 上 它 有 很 好 的 性 能 。 而 其 他 两 种 
方法 更 适合 于 其 他 类 型 的 查询 。 例 如 : 

(a) 若 要 查询 “1999 年 放映 时 间 长 于 150 分 钟 的 是 哪 部 影片 ? ”， 可 以 直接 从 使 用 例 3.9 中 的 
“直接 E/R” 方 法 得 到 的 关系 Movies 中 查 到 。 可 是 ， 若 使 用 例 3.10 中 的 “面向 对 象 ” 的 方法 ， 
就 需要 对 Movies、MoviesC、MoviesMM 和 MoviescMM 进 行 查询 ， 因 为 一 部 片 长 较 长 的 电 
影 可 能 会 在 这 四 个 关系 中 出 现 ? 。 

(b) 另 一 方面 ， 若 要 查询 “放映 时 间 长 于 150 分 钟 的 卡通 片 中 使 用 了 什么 武器 ?” ”， 使 用 
“直接 E/R” 方 法 会 很 麻烦 。 因为 必须 要 访问 Movies 以 找到 长 于 150 分 钟 的 影片 ， 接 着 访问 
Cartoons 以 查证 这 部 影片 是 否 存 在 ， 然 后 访问 MurderMysteries 以 找到 凶器 。 若 使 用 面向 
对 象 的 方法 ， 则 只 需 访问 关系 MoviescMM 就 可 以 找到 所 需 的 所 有 信息 。 

2. 如 果 倾 向 于 用 尽量 少 的 关系 ， 就 可 使 用 “ 空 值 ”的 方法 ， 因 为 它 只 需 一 个 关系 。 然 而 其 
他 两 种 方法 之 间 也 有 不 同 点 ， 在 “直接 E/R” 方 法 中 层次 的 每 个 实体 集 只 转化 为 一 个 关系 。 而 
在 “面向 对 象 ” 的 方法 中 ， 如 果 层次 中 有 一 个 根 和 n 个 孩子 (共有 n+ 1 个 实体 集 )， 则 就 会 有 2" 个 
不 同 的 实体 类 ， 此 时 就 要 创建 同样 多 个 关系 。 | 

3. 有 时 可 能 倾向 于 减少 空间 和 避免 重复 的 信息 。 因 为 “面向 对 象 ”的 方法 对 每 个 实体 只 使 
用 一 个 元 组 , 并 且 这 个 元 组 只 含有 对 实体 有 意义 的 属性 的 分 量 , 所 以 这 种 方法 占用 的 空间 最 少 。 
昌 然 “ 空 值 ”法 也 是 每 个 实体 一 个 元 组 ， 但 是 这 些 元 组 的 分 量 “ 太 长 ”了 。 也 就 是 说 ， 它 们 含 
有 针对 任 一 属性 的 分 量 , 而 不 管 对 于 给 定 实体 这 些 分 量 是 否 适 合 。 如 果 层 次 中 有 很 多 的 实体 集 ， 
而 这 些 实体 集 又 有 很 多 的 属性 ， 那 么 使 用 “ 空 值 ”法 就 会 浪费 大 量 的 空间 。 而 “直接 E/R” 法 
中 虽说 每 个 实体 对 应 多 个 元 组 ， 但 只 有 键 属性 重复 了 多 次 。 因 此 ,“ 直 接 B/R” 法 相对 于 “ 空 值 ” 
法 而 言 ， 使 用 的 空间 可 能 多 也 可 能 少 。 

3.3.5 习题 
* 习题 3.3.1 使 用 下 面 的 方法 ， 把 图 3-14 中 的 ER 图 转化 为 关系 数据 库 模 式 ， 


O 即使 把 这 四 个 关系 合并 为 两 个 ， 为 了 得 到 查询 结果 也 必须 访问 所 有 的 关系 。 








a)“ 直 接 FE/R” 法 。 
b)“ 面 向 对 象 ”法 。 
C) “ 空 值 ” 法 。 

















Lab computer 
Courses allocation 
图 3-14 习题 3.3.1 的 E/R 图 图 3.15 习题 33 2 的 ER 图 


习题 3.3.2 使 用 下 面 的 方法 ， 把 图 3-15 中 的 E/R 图 转化 为 关系 数据 库 模 式 : 
a)“ 直 接 E/R” 法 。 
b)“ 面 向 对 象 ” 法 。 
cj)“ 空 值 ”法 。 
习题 3.3.3 ”使 用 下 面 的 方法 ， 把 习题 2.1.7 中 设计 的 ER 图 转化 为 关系 数据 库 模式 ， 
a) “直接 E/R” 法 。 
b)“ 面 向 对 象 ”法 。 
c)“ 空 值 ”法 。 
习题 3.3.4 假设 有 一 个 涉及 实体 集 e 的 isa- 层 次 。 每 个 实体 集 都 有 a 个 属性 ， 其 中 x 个 是 根 实 
体 的 属性 ， 形 成 所 有 实体 集 的 键 。 给 出 使 用 下 面 的 方法 转化 为 关系 时 ， 计 算 符 合 如 下 要 求 
的 公式 (i) 使 用 的 最 少 和 最 多 关系 数 (Gi) 单个 实体 元 组 最 少 和 最 多 的 分 量 数 。 
* a) “ERER” $. 
b)“ 面 向 对 象 ” 法 。 
c)“ 空 值 ” 法 。 


3.4 范 数 依赖 


3.2 节 和 3.3 节 给 出 了 怎样 把 BR 设计 转化 为 关系 模式 的 方法 。 对 于 数据 库 设 计 者 来 说 ， 虽 然 
从 应 用 需求 中 直接 产生 关系 模式 会 很 困难 ， 但 并 非 不 可 能 。 不 管 关系 设计 如 何 产生 ， 人 们 经 党 
发 现 可 基于 某 种 约束 类 型 对 设计 系统 地 加 以 改进 。 在 关系 模式 设计 上 使 用 的 最 重要 的 约束 类 型 
是 单 值 约束 ， 称 为 “函数 依赖 ”( 缩写 为 FD )。 在 对 数据 库 进行 重新 设计 以 减少 元 余 的 过 程 中 ， 
这 种 约束 类 型 的 相关 知识 至 关 重 要 ， 这 一 点 将 在 3.6 节 中 见 到 。 还 有 其 他 可 使 人 们 设计 出 优良 的 
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数据 库 模式 的 约束 类 型 。 例 如 ，3.7 节 中 给 出 的 多 值 依赖 ， 以 及 5.$ 节 中 提 到 的 引用 完整 性 约束 。 
3.4.1 函数 依赖 的 定义 

一 个 关系 R 上 的 函数 依赖 ( functional dependency )， 即 FD， 是 指 “ 如 果 R 的 两 个 元 组 在 属 
性 41，A2，...，An 上 一 致 ( 也 就 是 ， 它 们 对 应 于 这 些 属性 的 分 量 值 相同 )， 那 么 它们 在 其 他 分 量 
B 上 的 值 必定 也 相同 。 写 做 :4142…As 一 B， 叫 做 “A!，A，，…，Ah; 函 数 决定 B。” 

如 果 属 性 集 4 ，4:，…，4, 函 数 决定 多 个 属性 ， 即 : 














A,A>...An— B; Ae Bis 
AjA2...An— By ， i j i | 
AiAz..An > Bn 
则 可 把 这 个 FD 集 合 缩写 为 "| | 
AjA2...An— Bı Bo... Bu ROR Mute 
图 3-16 是 对 关系 R 中 任意 两 个 元 组 :和 wu 的 解释 。 则 它们 必定 在 此 也 一 致 
例 3.12 考虑 图 3-8 中 的 关系 图 3-16 两 个 元 组 卢 数 依 赖 的 影响 


Movies(title, year, length, filmType, studioName, starName) 

该 关系 的 一 个 实例 在 图 3-17 中 给 出 。 从 Movies 中 可 以 合理 地 导出 几 个 FD。 例 如 ， 下 面 这 
三 个 FD: 

title year 一 length 


title year — filmType 
title year 一 studioName 


title year | length | filmType | studioName | starName 













Star Wars Fox Carrie Fisher 
Star Wars Fox Mark Hamill 
Star Wars Fox Harrison Ford 
Mighty Ducks Disney Emilio Estevez 
Wayne’s World Paramount | Dana Carvey 
Wayne’s World Paramount | Mike Meyers 





图 3-17 关系 Movies (title, year, length, filmType, studioName, starName ) 的 实例 


因为 这 三 个 RD 稍 头 左 边 有 相同 的 title 和 year， 所 以 可 把 它们 缩写 在 一 行 上 ; 

title year — length filmType studioName 

非 正 式 地 讲 ， 这 个 FD 集合 的 含义 是 ， 若 两 个 元 组 在 分 量 title 和 year 上 具有 相同 的 值 ， 则 
这 两 个 元 组 在 分 量 L1ength，filmzype 和 studioName 上 的 值 也 分 别 相同 。 这 种 断言 与 关系 模式 
最 初 的 设计 意义 一 致 。 属 性 title 和 year 形 成 了 Movies 实 体 集合 的 键 。 这 样 ， 只 要 给 定 片 名 和 年 
份 ， 就 可 惟一 地 确定 一 部 电影 ， 并 确定 一 部 电影 的 片 长 和 类 型 。 此 外 ， 还 有 一 个 从 Movies 到 
Studios 的 多 对 一 联系 。 人 们 也 希望 ， 如 果 给 定 一 部 电影 ， 则 只 有 一 家 出 品 该 影片 的 公司 。 

AX, FmHA 

title year ~ starName ， 
是 错误 的 ， 它 不 是 一 个 函数 依赖 。 因 为 完全 有 可 能 有 很 多 影星 参加 同一 部 电影 的 演出 。 口 ] 
3.4.2 关系 的 键 

如 果 下 列 条 件 满足 ， 就 认为 一 个 或 多 个 属性 的 集合 { 4,，4:，.…，4,} 是 关系 R 的 键 ; 

1 这 些 属性 函数 决定 关系 的 所 有 其 他 属性 。 因 为 关系 是 一 个 集合 ， 也 可 以 说 ， 不 可 能 存在 
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两 个 不 同 的 元 组 ， 它 们 具有 相同 的 4 ，4:，…，4, 值 。 
2. 没有 一 个 {4:，42，.…，4， } 的 真子 集 能 函数 决定 R 的 其 他 属性 。 也 就 是 说 ， 键 必须 是 最 
小 的 ( minimal )。 


当 键 只 包括 一 个 属性 4 时 ， 把 它 写 为 4， 而 不 是 {4}。 





函数 依赖 对 模式 的 解释 
FPD 和 任何 一 种 约束 一 样 ， 针 对 的 是 关系 模式 ， 而 不 是 某 个 特定 实例 。 不 能 仅 通过 一 
个 实例 确定 FD。 否 则 ， 从 图 3-17 可 以 得 到 一 个 FD: title 一 filmType， 因 为 对 于 关系 
Movies 实 例 中 的 每 一 个 元 组 来 说 ， 只 要 字段 title 值 相同 ， 则 字段 fil1mType 也 相同 。 
但 是 ,不 能 就 此 断定 这 个 FD 对 关系 Movies 成 立 。 如 果实 例 中 包含 了 title 为 King 
Kong 的 两 个 元 组 ， 而 它们 的 filmType 属 性 值 分 别 为 color 和 blackAndWhite， 那 么 所 假 
设 的 FD 就 不 成 立 。 


例 3.13 ”图 3-17 中 关系 Movies 的 键 为 {title、year、starName}。 首 先 要 证 明 它们 函 
数 决定 了 所 有 其 他 属性 。 也 就 是 说 ， 假 设 有 两 个 元 组 在 属性 title、year 和 starName 上 的 
值 相 同 ， 则 相应 的 其 他 属性 如 1ength、filmrype 和 studioName 上 的 值 也 应 该 相同 ， 这 一 
点 同 例 3.12 中 讨论 的 一 样 。 因 此 ， 不 同 的 元 组 在 title、year 和 starName 上 取 值 应 不 完全 相 
同 ; 和 否则， 应 是 指 同 一 个 元 组 。 

下 面 将 讨论 的 是 {title、year、starName} 的 任 一 真子 集 都 不 能 函数 决定 其 他 的 属性 。 
首先 看 ， 图 中 的 属性 tit1e 和 year 不 能 确定 starName， 这 是 因为 有 许多 电影 是 由 多 个 影星 
Biz. Alt, {title, year} TER, 

{year，starName} 也 不 是 键 ， 因 为 在 同一 年 中 一 个 影星 可 以 演 两 部 电影 。 因 此 

year starName — title ` 

不 是 FD。 同 样 ，{title， starName} 也 不 是 键 ， 理 由 是 在 不 同 的 年 份 中 可 有 两 部 同名 
且 由 同一 个 影星 演出 的 电影 9。 口 

有 时 一 个 关系 可 能 会 有 多 个 键 。 如 果 是 这 样 的 话 ， 通 常 就 要 指定 其 中 一 个 为 主键 
(primary key )。 在 商业 DBMS 中 ， 对 主键 的 选择 会 影响 数据 库 的 实现 ， 例 如 怎样 在 磁盘 中 存储 
关系 。 一 条 通用 的 惯例 是 : 

“。 当 显示 关系 模式 时 ， 在 主键 属性 下 划 线 。 


键 的 最 小 化 
虽然 在 关系 模型 中 要 求 键 最 小 化 ， 但 是 在 E/R 模 型 中 没有 此 项 需求 。 可 以 假设 E/R 模 
型 的 设计 者 只 把 必需 的 属性 作为 键 ， 但 是 没 法 知道 所 给 的 E/R 键 是 否 已 最 小 化 。 只 有 使 用 
一 种 如 FD 的 正式 的 描述 后 ， 才 能 了 解 所 给 的 属性 集合 是 否 为 键 的 最 小 化 集合 。 










再 补充 一 点 ， 最 小 化 (minimal ) 与 最 小 值 (minimum ) 是 不 同 的 概念 ， 最 小 化 是 说 
不 能 从 此 集合 中 拿 出 任何 东西 ， 而 最 小 值 是 说 它 是 所 有 可 能 键 当 中 最 小 的 。 对 于 一 个 给 
定 的 关系 ,最 小 化 键 的 属性 个 数 不 一 定 是 键 的 最 小 属性 数 。 比 如 ，ABC 与 DE 均 是 最 小 化 
的 键 ， 然 而 只 有 DE 是 所 有 键 中 属性 数 最 小 的 。 





日 ”在 早期 的 书 中 ， 由 于 认为 没有 关于 这 种 情况 的 例子 ， 一 些 读者 指出 那样 的 认定 不 正确 。 影 星 可 在 同一 部 片 
子 的 不 同 版 本 中 演出 ， 这 是 一 个 有 趣 的 挑战 。 


[84 | 
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3.4.3 超 键 

一 个 包含 键 的 属性 集 就 叫做 超 键 (superkey )， 它 是 “ 键 的 超 集 ” 的 简写 。 因 此 ， 每 个 键 都 
是 超 键 。 然 而 ， 某 些 超 键 不 是 〈 最 小 化 的 ) 键 。 注 意 ， 每 个 超 键 都 满足 键 的 第 一 个 条 件 : 它 函 
数 决 定 了 关系 中 所 有 其 他 属性 。 但 超 键 不 需要 满足 第 二 个 条 件 : 最 小 化 。 

例 3.14 ”在 例 3.13 给 出 的 关系 中 ， 有 许多 超 键 。 除 了 键 {title，year，starName} 是 
超 键 外 ， 还 有 任何 含有 键 的 超 集 ， 如 


{title, year, starName, length, studioName} 


也 是 超 键 。 口 


函数 依赖 中 的 “函数 ”是 什么 意思 ? 

Ai Az... An > 忆 被 称 为 “函数 ”依赖 是 因为 在 这 条 规则 中 ， 有 一 个 爹 有 一 系列 值 的 画 

k, JẸ ARIA, Arn ao A 都 产生 一 个 惟一 的 B 值 ( 或 根本 没有 值 ) 的 函数 。 例 如 ， 
在 关系 Movies 中 ， 可 以 想像 有 一 个 含有 字符 串 类 型 (如 “Star Wars”) 和 整数 类 型 (如 


1977) 的 函数 ， 它 确定 了 一 个 惧 一 的 1ength 的 值 ， 即 124。 这 个 函数 与 数学 中 给 出 的 函 
数 不 同 ， 因 为 数学 中 的 函数 是 可 计算 的 ， 然 而 这 条 规则 无 法 进行 计算 。 也 就 是 ， 不 能 由 
FAP “Star Wars” 和 整数 1977 算 出 正确 的 1ength 值 ， 它 只 能 通过 对 关系 的 观察 才能 得 
出 结果 。 我 们 观察 一 个 元 组 ， 看 在 给 定 title 和 year 属 性 值 时 ， 这 个 元 组 有 什么 样 的 
length 值 。 


3.4.4 找 出 关系 中 的 键 

当 把 ER 设计 转化 为 关系 模式 时 ， 通 常 要 预知 关系 的 键 。 产 生 键 的 第 一 条 规则 是 ， 

* 如 果 这 个 关系 来 自 于 一 个 实体 集 ， 则 它 的 键 就 是 相应 实体 集 的 键 属性 。 

3.15 例 3.1 描 述 了 怎样 把 实体 集 Movies 和 Stars 转 化 为 关系 。 这 些 实体 集 的 键 分 别 为 
{title,year} 和 {name}。 因 此 ， 这 也 是 它们 相应 的 关系 的 键 。 下 面 给 出 它们 的 关系 模式 ， 
下 划 线 强调 了 关系 的 键 。 


Movies(title, year, length, filmType) 
Stars(name, address) 





O 


第 二 条 规则 是 与 二 元 联系 相关 。 若 一 个 关系 R 是 从 联系 转化 而 来 ， 那 么 联系 的 多 样 性 就 会 
影响 关系 的 键 。 有 三 种 情况 : 

。 如果 联系 是 多 对 多 的 ， 则 与 其 相连 的 实体 集 的 键 属 性 都 是 R 的 键 属性 。 

。 如 果 联 系 是 从 El 到 EE, 的 多 对 一 联系 ， 则 只 有 Ei 的 键 属 性 是 R 的 键 属性 。 

“ 如果 联系 是 一 对 一 的 ， 则 与 其 相连 的 任 一 个 实体 集 的 键 属 性 都 是 它 的 键 属性 。 这 也 就 是 

说 ，R 的 键 不 惟一 。 







其 他 的 键 术语 

在 某 些 书 籍 和 文献 中 ， 对 键 有 不 同 的 巴 法 。 将 本 书 中 的 “ 超 键 ” 称 为 “ 键 "， 也 就 是 
键 的 属性 集合 只 有 函数 决定 所 有 其 他 属性 的 要 求 ， 没 有 最 小 化 限制 。 而 将 最 小 化 的 键 集 
会 ， 也 就 是 本 书 中 的 “ 键 ” 称 为 “候选 键 ”。 







例 3.16 ” 例 3.2 中 给 出 的 Owns 是 一 个 从 实体 集 Movies 到 Studios 的 多 对 一 的 联系 ， 那 么 Owns 


的 键 属性 就 是 Movies 的 键 属性 title 和 year。 下 面 给 出 了 owns 的 模式 ， 用 下 划 线 是 为 了 强调 
它 的 键 属性 。 

Owns(title, year, studioName) 

而 例 3.3 中 给 出 的 Stars-in 是 一 个 处 于 Movies 和 Stars 之 间 的 多 对 多 的 联系 ， 它 的 模式 是 : 

Stars-in(title, year, starName) 

从 这 可 看 出 ， 它 的 所 有 属性 都 是 键 属性 。 事 实 上 ， 除 非 这 种 联系 有 自身 的 属性 ， 否 则 它 的 
所 有 的 属性 都 是 键 属性 。 自 身 的 属性 不 是 键 属性 。 o 








最 后 讨论 一 下 多 路 联系 。 因 为 不 可 能 通过 联系 的 箭头 所 指 对 所 有 可 能 存在 的 函数 依赖 进行 
描述 ， 所 以 存在 着 这 样 的 情形 : 此 时 键 并 不 那么 显明 ， 如 果 不 经 过 深思 熟 虑 ， 不 可 能 知道 实体 
集 的 哪些 集合 能 函数 决定 其 他 实体 集 。 但 可 以 确定 的 是 : 

* 如 果 一 个 多 路 联系 R 有 一 个 箭头 指向 实体 集 E， 那 么 至 少 有 一 个 相应 不 包含 E 的 键 的 关系 

的 键 。 






函数 依赖 要 注意 的 其 他 方面 
现在 对 于 FD 的 了 解 只 是 FD 的 左边 可 有 多 个 属性 ， 其 右边 只 有 一 个 属性 。 而 且 ， 位 于 
右边 的 属性 不 能 出 现在 左边 。 可 以 对 多 个 左边 相同 的 FD 进行 简写 ， 简 写 后 的 FD 右边 是 
一 个 属性 集合 。 另 外 ， 有 时 允许 右边 属性 是 其 左边 属性 的 一 部 分 ,这 样 的 FD 被 称 为 “ 平 
Jo” (trivial) FD. 
另 一 种 观点 是 FD 左 边 和 右边 可 以 是 任意 属性 组 合 ， 属 性 可 以 同时 在 左边 和 右边 出 现 。 这 
两 种 观点 没有 什么 重要 的 不 同 。 本 书 中 除了 特别 声明 外 ， 不 允许 属性 同时 出 现在 左右 两 边 。 









3.4.5 习题 
习题 3.4.1 ”考虑 一 个 关于 美国 公民 信息 的 关系 ， 这 个 关系 的 属性 有 : 人 名 、 社 会 保险 号 、 
街道 地 址 、 城 市 、 州 、 邮 编 、 地 区 代码 和 电话 号 码 (7 位 数字 )。 这 个 关系 有 哪些 FD? 关 
系 的 键 是 什么 ?为 了 回答 这 些 问题 ， 就 要 知道 是 如 何 分 配 这 些 数 据 的 。 比 如 ， 一 个 地 区 代 
码 是 否 可 以 用 于 两 个 州 ? 一 个 邮编 能 否 适用 于 两 个 地 区 ? 两 个 人 可 否 有 相同 的 社会 保险 
号 ? 他们 能 有 相同 的 地 址 和 电话 号 码 吗 ? 
习题 3.4.2 ”考虑 在 一 个 密封 容器 中 分 子 的 方位 ， 属 性 有 分 子 的 ID， 分 子 方位 的 -、y、z 坐 
标 ， 以 及 在 x、y、z 方 向 上 的 速率 。 你 认为 这 个 关系 上 有 娜 些 FD 成 立 ” 键 是 什么 ? 
习题 3.4.3 ”习题 2.2.5 中 给 出 了 三 种 不 同 的 关于 联系 Births 的 假设 。 请 分 别 指出 它们 相应 关 
系 的 键 。 
习题 3.4.4 指出 由 习题 3.2.1 得 出 的 数据 库 模式 中 每 个 关系 的 键 。 
习题 3.4.5 指出 由 习题 3.2.4 的 四 个 小 题 所 得 关系 的 键 。 
习题 3.4.6 ”假设 R 是 含有 属性 4,，4:，.…，4, 的 关系 。 如 果 给 出 下 列 条 件 ， 指 出 R 有 多 少 超 
键 。 
* a) hl 是 仅 有 的 键 。 

b) 4 和 和 4: 均 为 键 。 

c) {A;, 42} 和 {43， 44} 都 为 键 。 

d) {41，A2} 和 {41，A;} 都 为 键 。 


* 


* 





HI 


3.5 函数 依赖 的 规则 


在 这 一 节 将 要 学 习 如 何 推导 (reason ) FD。 也 就 是 ， 假 设 已 经 知道 关系 满足 一 些 FD 集 合 ， 
通常 可 从 这 些 已 知 FD 中 推导 出 这 个 关系 中 必定 存在 的 其 他 FD。 发 现 其 他 FD 的 能 力 ， 对 于 3.6 节 
中 讨论 的 设计 一 个 良好 的 关系 模式 很 有 必要 。 

例 3.17 ”如 果 一 个 含有 属性 4、B、C 的 关系 R 满 足 FD:; 4 一 BHB 一 C， 那 么 就 可 以 推断 
出 R 也 满足 FD: 4 一 C。 这 是 怎么 得 到 的 呢 ? 为 了 证 明 4 一 C， 必 须要 对 R 中 A 的 分 量 值 相同 的 
两 个 元 组 进行 考虑 , 证 明 它 们 C 的 分 量 值 也 相同 。 

假设 两 个 在 4 上 取 值 相同 的 元 组 Ca, b, c1) 和 (a，b,，c; )。 假 定 元 组 属性 的 次 序 是 4 ， 
3，C。 因 为 R 满 足 4 > B， 又 已 知 两 个 元 组 在 4 上 的 值 相同 ， 所 以 它们 在 B 上 的 值 也 相同 。 也 就 
是 b = bo, XPS TCA ERE (a, b, ca) 和 (a,，b，ci )， 其 中 4b 既 是 bj 也 是 bp;。 同 样 ， 因 
为 R 满 足 B 一 C， 而 这 两 个 元 组 在 B 上 的 值 相同 ， 所 以 它们 在 C 上 的 值 也 相同 。 这 也 就 证 明了 RR 
中 只 要 两 个 元 组 在 4 上 取 值 相同 ， 则 它们 在 C 上 取 值 也 相同 ， 即 存在 FD: 4 一 C。 口 


FD 在 不 改变 关系 的 合法 实例 集 的 前 提 下 ， 有 多 种 不 同 的 描述 方法 。 其 中 : 
“对 于 FD 集 合 8 和 7 而 言 ， 若 满足 8 的 关系 实例 集 与 其 满足 7 的 关系 实例 集 完 全 相同 ， 就 认为 
S 和 7 等 价 (equivalent )。 
“更 普遍 的 情况 是 ， 若 满足 7 中 的 所 有 FD 的 关系 实例 集 必 然 同 时 满足 8 中 的 所 有 FD MA 
为 8 是 从 7 中 推断 〈follow ) 而 来 。 
注意 ， 当 且 仅 当 S 从 7 中 推断 而 来 ， 并 且 7 也 从 $ 中 推断 而 来 时 ，4 与 7 才 等 价 。 
在 这 一 节 中 将 给 出 关于 FD 的 很 多 有 用 的 规则 。 这 些 规则 保证 了 可 以 用 一 个 FD 集 合 蔡 换 另 
一 个 等 价 的 FD 集 合 ， 或 者 可 以 添加 从 原 有 FD 集 合 推断 出 的 新 的 FD 集 合 。 例 如， 例 3.17 中 给 出 
的 传递 规则 ( transitive rule )， 可 以 用 来 跟踪 FD 链 。 还 可 以 给 出 一 个 用 来 判断 一 个 FD 是 否 可 以 
由 一 个 或 多 个 FD 推断 出 来 的 算法 。 
3.5.1 分 解 /结合 规则 


3.1.4 节 中 对 FD 的 定义 是 : 
A, Ao... A,— B, 
A, A2... An Bo 
A, A? aes An— Bm 
它 的 缩 略 形式 是 : 


A, Az... An 一 万 Bm 


所 以 ， 可 把 缩 略 形式 右边 的 属性 分 解 开 ， 使 得 每 个 FD 的 右边 上 只 有 一 个 属性 。 同 样 ， 也 可 
以 把 左边 具有 相同 属性 的 多 个 FD 组 合 起 来 ， 形 成 一 个 左边 相同 而 右边 为 原来 右边 所 有 属性 集 
合 的 FD。 此 时 FD 的 新 形式 与 原形 式 等 价 。 等 价 的 转化 方式 有 两 种 : 

。 可 用 一 个 FD 的 集合 4 A... 4 一 Bi (i=1, 2, ..., m) 替换 FD A; Ap... A, — Bi Bo Bpo 

这 种 转化 称 为 分 解 规 则 ( splitting rule )。 

“可 用 一 个 FD Aj A? .…4, 一 By Bo... Bn 蔡 换 FD 集 合 4 Ad... An B; (i=1, 2, .., mh 这 

种 转化 称 为 组 合 规则 ( combining rule )。 

例如 ， 在 例 3.12 中 指出 了 FD 集 合 : 





title year — length 
title year — filmType 
title year 一 studioName 


如 何等 价 于 单个 FD 


title year 一 length filmType studioName 


分 解 规则 只 能 在 FD 的 右边 使 用 ， 而 不 能 在 左边 使 用 。 可 用 下 例 来 说 明 原 因 。 
例 3.18 考虑 例 3.12 中 关系 Movies 的 一 个 FD: 


title year 一 length 


如 果 要 把 它 进行 左边 分 解 ， 则 为 


title 一 length 
year — length 


那么 就 得 到 了 两 个 错误 的 FED。 也 就 是 说 ，title 不 能 函数 决定 length， 原 因 是 可 以 存在 
两 部 同名 ( 例如，King Kong) 但 片 长 不 同 的 电影 。 同 样 ，year 也 不 能 函数 决定 length， 是 
因为 在 任 一 年 代 可 以 存在 不 同 片 长 的 电影 。 口 
3.5.2 平凡 函数 依赖 

若 在 一 个 FD: A1 4 .… 4, -> B 中 ，B 属 于 A， 则 认为 这 个 FD 是 平凡 的 (trivial )。 比 如 ， 

title year 一 title 

就 是 这 样 一 个 FD。 

每 个 关系 中 都 会 存在 平凡 ED ， 因 为 平凡 FD 是 说 “两 个 元 组 在 属性 4,，4:，..….，4, 上 取 值 
相同 ， 则 它们 在 这 “个 属性 中 的 任 一 个 上 取 值 都 相同 。” 因 此 ， 不 需 知道 关系 中 的 FD 就 可 以 假 
设 出 任意 一 个 平凡 FD。 

在 FD 的 最 初 定义 中 不 允许 存在 平凡 FD。 然 而 ， 包 括 它 们 没有 坏处 ， 因 为 它们 总 是 真 的 ， 
而 且 有 时 它们 能 使 规则 的 描述 简单 化 。 

当 允 许 存在 平凡 FD 时 ， 也 就 允许 存在 左边 属性 出 现在 右边 的 FD。 而 FD A A... A> Bi 
Bo... Bn 为 称 为 : 

°F LH (trivial), 仅 当 其 右边 的 属性 集合 是 左边 集合 的 子 集 。 

* 非 平凡 的 ( nontrivial )， 仅 当 其 右边 属性 集中 至 少 有 一 个 属性 不 属于 左边 的 集合 。 

“完全 非 平 凡 的 〈completely nontrivial )， 仅 当 其 右边 集合 中 的 属性 均 不 在 左边 集合 中 。 

因此 


title year 一 year length 


是 非 平凡 的 ， 而 不 是 完全 非 平凡 的 。 若 除去 右边 中 的 year ， 得 到 的 就 是 一 个 完全 非 平凡 的 
FD, 

还 有 一 种 情况 是 ， 人 们 总 是 可 以 从 右边 除去 那些 在 左边 出 现 的 属性 ， 也 就 是 : 

° FD A; Ap... An— By Bp... Bn 等 价 于 

A, Az... An Ci Cz... Cy 

这 里 的 C 是 所 有 不 在 4 中 而 在 8 中 的 属性 。 

这 个 规则 被 称 为 平凡 依赖 规则 〔 trivial-dependency rule )， 用 图 3-18 给 以 说 明 。 
3.5.3 计算 属性 的 闭 包 

在 讲述 其 他 规则 前 ， 先 介绍 一 个 基本 的 规则 ， 其 他 规则 都 是 从 它 引 伸 出 来 的 。 假 设 {4，， 





56 . 务 了 全 





42，...，4, } 是 一 个 属性 集合 ，S 是 一 个 FD 的 集 


' ' ma C's m 
合 。 则 $ 集 合 下 的 属性 集合 {4,，4:，.…，4，} 的 TETH , 
闭 包 (closure ) 是 集合 B， 使 得 每 一 个 满足 5 中 i Bse 
所 有 FD 的 关系 ， 也 同样 满足 41，A2，...，A4, 一 : 


8。 也 就 是 说 ，A1 Ad... 4, 8 是 从 5 的 FD 中 推 | pr 
断 出 来 的 。 属 性 集 {4:，4:，.…，4, } 的 闭 包 记 
为 { 4 ，42，…，4 六 。 为 了 简化 闭 包 计算 的 讨 


= 


论 ， 将 允许 存在 平凡 FD FIEA1, An, a An e A a 
总 是 在 {41， A,, eens An }# 中 。 因此 它们 在 C 部 分 一 致 


图 3-19 给 出 了 计算 闭 包 的 过 程 。 从 一 个 给 
定 的 属性 集合 出 发 ， 重 复 地 扩展 这 个 集合 ， 只 
要 某 个 FD 左边 的 属性 全 部 包含 在 这 个 集合 中 ， 
就 把 此 FD 的 右边 的 属性 也 包含 进去 ， 依 次 使 用 
这 个 方法 ， 直 到 不 再 产生 新 的 属性 为 止 。 最 后 
的 结果 集合 就 是 给 定 属性 集合 的 闭 包 。 下 面 给 
出 计算 属性 集合 {41，A;，...，Ah, } 关 于 某 已 知 
FD 集合 的 闭 包 的 详细 算法 。 

1. 设 X 是 结果 的 属性 集合 ， 也 就 是 闲 包 。 
首先 ， 把 X 初 始 化 为 { A1，A;，..….，A, }。 

2. 在 FD 集合 中 查找 B! B... Ba 一 C 这 样 的 
式 子 ， 这 里 B11，B;，...，B, 在 X 中 ， 而 C 不 在 X 
P, 者 找到 ， 则 把 C 加 入 X。 图 3-19 计算 属性 集合 的 闭 包 

3. 反复 使 用 第 二 步 ， 直 到 不 再 有 其 他 的 属 
性 加 入 到 X。 因 为 X 的 元 素 只 能 增长 ， 而 任何 一 个 关系 模式 中 的 属性 都 是 有 限 的 ， 所 以 最 后 肯 
定 存在 不 能 再 加 入 属性 的 结果 。 

4. 当 不 能 添加 任何 属性 时 ， 集 合 X 就 是 {41，A2，...，An}*。 

例 3.19 ”考虑 含有 属性 4，B，C，D，E 和 F 的 关系 。 假 设 此 关系 有 FD: ABO C, BC 一 
AD, D 一 E 和 CF 一 B。 那 么 {A，B} 的 闭 包 {A4，B ÆA? 

从 X= {4，B } 出 发 。 首 先 注意 到 FD AB 一 C 左 边 的 属性 都 在 X 中 ， 而 C 不 在 Xx 中， 把 C 加 入 
X。 因 此 ， 第 二 步 运行 一 次 后 的 Xx 为 {4,，B, C }。 

接着 ,注意 到 FD BC 一 AD 左边 的 属性 都 在 X 中 ， 所 以 可 往 X 中 添加 A 和 Ds。 但 由 于 A 在 X 
中 ,而 DD 不在， 由 此 X 为 {4，B，C，D}。 同 样 ， 根据 FD D 一 E 可 把 E 加 入 X 中 ， 于 是 X 为 {4，B， 
C, D, E}. Bik, 再 没有 属性 可 以 添加 到 X 中 了 。 要 注意 不 能 使 用 FD CF 一 B， 原 因 是 左边 集 
合 中 的 F 永 远 不 会 在 X 中 。 因 此 ,，{4, B}={4, B,C, D, E}. 口 


如 果 知 道 怎样 计算 任 一 属性 集合 的 闭 包 ， 那 么 就 可 以 判断 任 一 给 定 的 FD A, AD... A, BE 
否 是 来 自 FP 集 合 S 的 推断 。 首 先 可 用 5S 计算 {41，A2，，...，A,}*。 如 果 B 在 {41，A2，...，A。 PP, 
WA: Ao... An B 可 从 5 推断 得 来 。 如 果 B 不 在 {A1，A;，...，4; }* 中 ， 则 该 FD 不 能 从 5 推断 得 来 。 
更 普遍 地 ,如果 一 个 右边 为 属性 集合 的 FD 是 FD 集合 的 缩 略 形式 ， 将 其 分 解 就 可 以 判定 这 个 FD 


图 3-18 平凡 依赖 规则 





O BC 一 4D 是 函数 依赖 集 B5C-4 和 BC-D 的 缩 略 形式 ， 根 据 需 要 可 以 独立 处 理 这 些 依赖 集 。 





是 否 从 $ 推 断 出 来 。 比 如 对 于 FD A) Ad... An—> Bi Bo... Be, RAMB, Bo, ... B 都 在 {Ai， 
42，…，4j}# 中 时 ， 才 认为 此 FD 是 从 4 推断 而 来 。 

例 3.20 考虑 例 3.19 中 的 关系 和 FD 集合 。 假 设 要 证 明 4B 一 D 是 从 这 些 FD 集 合 中 推出 来 的 。 
先 计算 {4，B }}， 由 上 例 可 知 ， 它 的 值 为 {4，B，C，D，E }。 因 为 D 是 闭 包 的 一 个 元 素 ， 则 可 
以 认为 4B 一 DD 是 从 FD 和 集合 得 来 的 。 

AAW, 考虑 FD D 一 A。 为 了 判断 这 个 FD 是 否 能 从 给 定 的 FD 集合 得 来 ， 先 要 计算 {D}+。 
为 了 计算 这 个 闭 包 ， 令 X= {D}。 接 着 可 以 使 用 FD D 一 E 把 E 加 入 X 中 。 此 时 ， 由 于 没有 其 他 
FD 的 左边 属性 包含 X= {D，E }， 所 以 {D}* = {D，E }。 因 为 4 不 在 {D, E } 中 ,结论 是 FD D 一 
A 不 能 从 FD 集合 得 来 。 口 


3.5.4 为 什么 能 用 闭 包 算 法 

在 这 节 中 ， 将 证 明 为 什么 闭 包 算法 能 正确 判断 一 个 FD A Ad... An 8B 是否 能 从 给 定 的 FD 集 
合 5 推 断 出 来 。 证 明 分 两 部 分 : 

1. 必须 要 证 明 闭 包 算法 没有 多 余 的 FD。 也 就 是 说 ， 如 果 4, A... A, B 通过 了 闭 包 算法 测 
试 ( 即 B 在 {di，4:，…，4 中 )， 那么 41 Ad... An B 在 任何 满足 FD 集合 S 的 关系 中 成 立 。 

2. 必须 要 证 明 通过 闭 包 算法 可 以 找到 从 5 推断 出 来 的 所 有 FD。 

为 什么 闭 包 算法 只 给 出 正确 的 FD 

这 一 点 可 以 通过 对 算法 第 二 步 的 使 用 次 数 作 归 纳 证 明 。 第 二 步 是 说 对 每 一 个 X 中 的 属性 DD， 
FD A, Az... A, > DD 成 立 ( 特殊 情况 ，D 是 4 中 一 员 。 该 FD 为 平凡 FD )。 这 样 ， 每 个 满足 8 中 所 有 
FD 的 关系 R 都 满足 41 Ao... A, > Do 

基础 : 最 基础 的 情况 是 没有 进行 任何 计算 。 于 是 DD 必定 是 41，A;，...，A4, 中 一 员 ， 则 4， 
Az... 4h, 一 DD 是 个 平凡 FD， 它 在 任何 关系 中 都 成 立 。 

归纳 : 假设 当 使 用 FD B, Bo... B 一 D 时 已 把 D 加 入 到 XX。 那么 由 归纳 假设 可 知 R 满 足 41 Ap... 
A,B (i=1，2，...，m )。 换 言 之 ，R 的 任何 两 个 元 组 在 4!，4;，...，A。,。 上 的 取 值 相等 时 ， 它 
WEB, Bz, e, Bn 上 的 取 值 也 相等 。 由 于 R 满 足 Bi Bi.. B,D， 还 可 以 得 出 这 两 个 元 组 在 D 
上 的 取 值 也 相等 。 因 此 ，R 满 足 41 Ad... An 一 Do 

为 什么 闭 包 算法 可 以 找到 所 有 的 FD 

假设 闭 包 算法 测试 说 FD A Az... 4, 一 8 不 能 从 5 中 推断 。 也 就 是 说 ，{A1，A;，...，A4, } 关 于 
5 的 闭 包 中 不 包含 8。 那么 ， 如 果 要 证 明 FD A, A... A> B 确 实 不 能 从 5 中 推断 ， 也 就 是 要 证 明 
至 少 有 一 个 满足 $5 中 所 有 FD 集合 ， 但 不 满足 41 Ap... 4, 一 B 的 关系 实例 存在 。 

构造 这 样 一 个 实例 /非常 简单 ， 步 又 见 图 3-20。 假 设 / 只 有 两 个 元 组 f 和 js。 这 两 个 元 组 在 {4，， 
Az, o An 的 所 有 属性 上 取 值 相 同 ， 但 是 在 其 他 属性 上 的 值 不 同 。 首 先 要 证 明 /满足 8 中 所 有 
的 FED， 接 着 证 明 它 不 满足 4 Ad... A, Bo 

An}* Other Attributes 


t: 111---11 000 ---00 
“11 111-11 


图 3-20 满足 8 但 不 满足 4; Az.. An — B 的 实例 I 


假设 在 集合 $ 中 存在 一 些 了 不 满足 的 FD C C.G D。 因 为 /只 有 两 个 元 组 t 和 s， 那 么 肯 
定 是 这 两 个 元 组 违反 了 Ci C;... Ce 一 D。 也 就 是 说 ，i 和 s 在 {C1，C;，... cx } 上 的 取 值 相同 ， 但 
在 D 上 的 取 值 不 同 。 从 图 3-20 中 可 以 看 出 ，C1，C，,，... Co 肯定 属于 {41, Ad, ..., AF, XA 
为 :和 s 只 在 这 个 闭 包 中 的 取 值 相同 。 同 样 ， 因 为 :和 s 只 在 其 他 属性 上 的 取 值 不 同 ，D 肯 定 属于 其 
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他 属性 。 

但 是 这 样 就 不 能 正确 地 计算 出 闭 包 。 因 为 当 X 为 {C;:，C;，.…. C;} 时 ， 就 可 以 运用 Ci Cr... C 
一 DD 把 D 加 入 XXX。 由 此 得 出 的 结论 是 ， 不 存在 Ci C... Ci 一 Di 即 实例 1 满足 5s。 

其 次 ， 要 证 明 / 不 满足 4 Ar... 4 一 B。 这 个 比较 简单 ， 已 知 41,，A2，...，4, 属 于 1 和 s 取 值 相 
REA, FFABAZE(A, Az, ..., Ar CRIBRIBF{A1, A, .., AY) WEAS, I 
不 满足 4 Ar... 4 一 B。 上 述 分 析 的 结论 就 是 ， 闭 包 算法 不 会 找到 过 多 或 过 少 的 FD， 而 是 不 多 
不 少 的 能 从 :推断 的 所 有 FD。 

3.5.5 传递 规则 

传递 规则 联结 了 两 个 FD 

。 若 关系 R 中 FD A, A2... An— B, Bo... By FAB, Bo... Bn 一 Cy Cr... Ci 都 成 立 ， 那么 FD A, Ap... 

An Ci C2... Ci 也 在 R 中 也 成 立 。 

如 果 C 中 有 属性 属于 4 集合 ， 则 可 根据 平凡 依赖 把 它们 从 右边 消除 。 

下 面 用 3.5.3 节 中 的 测试 来 证 明 传递 规则 的 正确 性 。 为 了 证 明 A41 Az... An Ci Co... Cl 成立， 
就 要 根据 所 给 的 两 个 FD 来 计算 {41，A2，...，A,}*。 

从 FD A; A2... An— By By... Bw 可 知 ，B1，B;，...，Bn 属 于 {A1!，A;，...，A,}+。 然 后 ,使 用 
FD Bi Bo... Bn Cy Cr... Ci 把 C1， Ci，...，Ci 加 入 到 {A1，As，...，As}*。 因 为 C 集 合 中 所 有 的 
元 素 都 属于 {A1!，A;，...，A,*， 所 以 可 以 得 出 结论 : 对 于 任何 满足 41 Ao... 4, 一 By Bo... By 和 Bi 
B2... Bn > C1 Cr... Ci 的 关系 而 言 ， Aj Ap... An— Cy Co... Ck ARSL o 


闭 包 和 键 
注意 当 且 仅 当 A1，A，,，...，A， 是 关系 的 超 键 时 ，{Al，A2，...，A, }+ 才 是 这 个 关系 的 
所 有 属性 的 集合 。 只 有 这 样 ，A!，A，，...，A， 才能 函数 决定 所 有 其 他 的 属性 。 如 果 要 了 验 


证 {A1，A2，...，Ahn} 是 一 个 关系 的 键 ， 可 以 先 检 查 {A1，A2，...，An }+ 是 否 包 含 了 关系 的 
全 部 属性 ， 然 后 再 检查 是 否 是 从 {A1，A;，...，Ah，} 中 移 走 一 个 属性 ， 就 不 会 形成 包含 所 
有 属性 。 





例 3.21 先 从 图 3-7 中 关系 Movies 开 始 ， 该 关系 来 自 于 例 3.5， 表 示 出 实体 集 Movies 的 四 个 
属性 以 及 Movies 与 Studios 之 间 的 联系 Owns。 下 面 给 出 这 个 关系 和 它 的 一 些 数据 样本 。 


title year | length | filmType | studioName 
Star Wars 1977 | 124 color Fox 
Mighty Ducks | 1991 | 104 color Disney 
Wayne’s World | 1992 | 95 color Paranount 


假设 要 在 此 关系 中 加 入 描述 制 片 三 的 相关 数据 ， 为 了 简单 起 见 ， 仅 仅 加 上 制 片 厂 所 在 的 城 
市 以 表示 它 的 地 址 。 于 是 这 个 关系 变 为 ; 


title year | length | filmType | studioName | studioAddr 

Star Wars 1977 | 124 color Fox Hollywood 

Mighty Ducks 1991 | 104 color Disney Buena Vista 

Wayne’s World | 1992 | 95 color Paramount | Hollywood 
在 这 个 关系 中 存在 有 两 个 FD : 


title year 一 studioName 
studioName 一 studioAddr 


第 一 个 FD 成 立 是 因为 Owns 是 多 对 一 的 联系 。 而 第 二 个 FD 成 立 是 因为 a9dress 是 Studios 





的 一 个 属性 ， 并 且 studioName 是 Studios 的 键 。 
运用 传递 规则 ， 上 面 两 个 FD 可 组 合 为 


title year — studioAddr 


这 个 FD 说 明了 title 和 year (也 就 是 一 部 movie ) 函数 决定 了 一 个 地 址 一 一 拥有 这 部 电 
影 的 制 片 三 的 地 址 。 口 


3.5.6 函数 依赖 的 闭 包 集合 

由 上 面 的 分 析 可 知 ， 只 要 给 定 一 个 FD 集合 ， 就 可 以 推断 出 一 些 其 他 FD 集合 ， 其 中 包含 平 
几 和 非 平凡 FD 集合 。 在 以 后 的 章节 中 ， 还 将 介绍 怎样 区 分 关系 中 原 已 给 定 的 FD (given FD) 
集合 和 运用 这 节 中 给 出 的 规则 或 属性 集合 的 闭 包 算法 导出 的 FD (derived FD )。 

而 且 ， 在 有 些 情况 下 ， 还 要 判断 应 使 用 哪 一 个 FD 集合 来 描述 一 个 关系 的 完全 FD 集合 。 如 
果 一 个 给 定 FD 集 能 把 关系 中 的 其 他 FD 集合 推出 来 ， 就 认为 这 个 FD 是 关系 的 基本 集 (basis), 
如 果 一 个 基本 集 的 任 和 真子 集 都 不 能 完全 地 把 其 他 FD 集 推出 来 ， 就 称 这 个 基本 集 为 最 小 化 的 
( minimal ) 基本 FD 和 集 。 

例 3.22 考虑 关系 (A，B，,，C), 它 的 任 一 个 属性 都 能 函数 决定 其 他 两 个 属性 。 此 时 它 的 
全 部 导出 FD 集 包含 了 六 个 左边 和 右边 都 只 有 一 个 属性 的 FD: A>B, A>C, BOA, BOC, C 
一 4、 和 (C 一 有 8， 以 及 三 个 左边 有 两 个 属性 的 FD: 4B 一 C、AC 一 B、BC 一 4A。 导出 FD 集中 还 包 
括 有 用 缩 略 形式 表示 的 FD: A> BC， 类 似 4 一 4 的 平凡 FD 和 类 似 4B-*4C 的 非 完 全 平凡 FD〈 虽 
然 在 严格 的 FD 定 义 中 ， 不 要 求 列 出 平凡 的 或 部 分 平凡 的 ED ， 和 右边 有 多 个 属性 的 依赖 )。 

这 个 关系 和 它 的 FD 集 合 有 多 个 最 小 化 的 基本 FD 集 。 其 中 一 个 是 

{4—B, B>A, B—C, CB} 





另 一 个 是 
{A>B, B>C, CA} 
这 个 关系 还 有 一 些 其 他 最 小 化 的 基本 FD 集 ， 把 它 作为 习题 留 给 读者 。 口 
3.5.7 投影 函数 依赖 


当 学 习 关 系 模式 设计 时 ， 还 应 回答 下 面 有 关 FD 的 问题 。 假 设 有 一 个 含有 FD 集合 F 的 关系 R， 
通过 除去 R 模 式 中 某 些 属性 获得 R 的 “投影 ”( project )。 设 5 是 从 关系 R 的 投影 中 获得 的 关系 。 
因为 5 是 集合 ， 在 它 的 实例 中 没有 相同 的 元 组 。 那 么 g 中 有 哪些 FD 呢 ? 

这 个 问题 的 答案 原则 上 可 以 通过 计算 所 有 满足 如 下 条 件 的 FD 集合 得 来 

。 从 FF 推断 出 来 。 

。 只 包含 5 的 属性 。 


推理 规则 的 全 集 
若 要 知道 一 个 FD 是 否 从 一 个 给 定 的 FD 集合 中 导出 ， 经 常 使 用 的 方法 是 运用 3.5.3 节 
中 介绍 的 闭 包 算法 。 可 是 ， 还 可 运用 被 称 为 Armstrong 公理 ( Armstrong’s axioms ) 的 一 
组 规则 得 到 一 个 给 定 集合 能 推断 出 的 FD。 这 些 公理 是 : 


1. 自 反 律 ( reflexivity ): 如 果 {B1，Bs，...，B} 是 {A1, Ao, ...， A, HFR, WA, 
A2... An— Bi B2... Bn。 这 就 是 通常 所 说 的 平凡 FD。 
2. 增 广 律 ( augmentation ): +e A, A2... 4, 一 Bı Bp... Bn, ARZ 
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A; Ao... An Cy Cr... Ce 7B; Bo... By Cs Cr... Cy 
对 于 任何 属性 Cl， C2, e.. Ci 的 集合 都 成 立 。 
3. 传递 律 ( transitivity ): 如 果 


A, Ap... An — By Bo... BsrBi By... Bn > Cy Cro. Cr 
都 成 立 ， 那 么 
A; Az... An > Cy C2... Cr 


由 于 存在 大 量 这 样 计 算出 的 FD 集 合 ， 而 且 其 中 很 多 可 能 是 宛 余 ( 也 就 是 ， 它 们 是 从 相同 
的 FD 推出 )， 因 此 可 以 对 它们 进行 简化 。 通 常 ， 在 最 坏 情况 下 ， 计 算 s 中 的 全 部 FD 集合 的 复杂 
度 是 S 中 属性 数目 的 指数 寡 。 

例 3.23 ”假设 R (A, B, C, D) 中 有 FD: A> B, B> CHC 一 也 。 假 设 要 把 R 投 影 到 8 
(A, C, D)。 原则 上 ， 为 了 找到 5 的 FD 集合 ， 需 要 运用 FD 集合 的 完全 集 ，、 包 括 涉及 B 的 FD, 求 
出 {4，C, D } 的 八 个 子 集 的 闭 包 。 但 实际 上 可 以 使 用 一 些 明 显 的 简化 规则 。 

。 除 去 空 集 和 不 能 推出 非 平凡 FD 的 属性 集合 。 

* 如 果 已 知 集合 Xx 的 闭 包 包含 了 全 部 的 属性 ， 那 么 就 不 能 通过 X 的 超 集 来 寻找 新 的 FD 。 

因此 ， 可 先 从 单元 素 集 的 闭 包 出 发 ， 如 有 必要 的 话 再 接着 从 双 元 素 集合 的 闭 包 出 发 。 对 于 
X 中 的 任 一 个 闭 包 ， 要 增加 关于 在 XY 和 在 S$ 的 模式 中 ， 但 不 在 Xx 中 的 属性 E 的 FD 六 一 EE。 

首先 ，{4}# = {4，B,，C，D}。 因 此 ，FD 4 CHA 一 D 存 在 于 S$ 中 。 要 注意 4 — B 在 R 中 
有 效 ， 但 在 s 中 毫 无 意义 ， 这 是 因为 8 不 是 5 的 属性 。 

接着 ， BRC} = {C，D}， 从 这 个 集合 可 以 为 5 得 到 新 的 FD C 一 D。 因 为 {D}# = {D}, 不 
能 添加 新 的 FD。 于 是 ， 单 元 素 集 闭 包 计算 完成 。 

由 于 {A} 包含 了 S 的 所 有 属性 ， 因 此 就 没有 必要 考虑 {4} 的 超 集 。 原 因 是 不 管 找到 的 是 什么 
样 的 FD， 如 AC 一 D， 它 是 通过 增 广 律 从 中 已 有 的 ， 左边 只 有 A 的 FD 推导 出 来 。 此 时 ， 仅 有 
的 双 元 素 集 的 闭 包 是 {C，D}: = {C，D})。 它 意味 着 不 能 再 添加 任何 FD。 闭 包 计 算 到 此 为 止 ， 
所 得 的 FD 是 : A4 一 C, A> DAIC>D, 

若 仔 细 观 察 的 话 ， 还 可 发 现 4 一 D 是 运用 传递 律 从 其 他 两 个 FD 得 到 的 。 因 此 ，5 中 的 一 个 
简单 的 ， 等 价 的 FP 集合 就 是 4 一 C 和 C 一 D。 口 


3.5.8 习题 
* 习题 3.5.1 考虑 模式 为 R(A，B，C，D ) 的 关系 R 和 FD:; AB—>C, C>DAID— A, 
a) 从 给 定 的 FD 集合 推出 的 非 平 凡 FD 是 什么 ?必须 限制 FD 的 右边 只 有 一 个 属性 。 
b) R 的 键 有 哪些 ? 
c) 不 包含 R 键 的 超 键 有 哪些 ? 
习题 3.5.2 ”根据 下 列 各 条 件 重 复 回 答 习 题 3.5.1 提 出 的 问题 : 
a) 模式 为 S$ (A, B, C, D), FD: A>B, B—C 和 B— D, 
b) 模式 为 7T (A, B, C, D), FD: ABC, BCD, CD— A 和 AD —>B, 
c) ANU (A, B, C, D), FD: A>B, B>C, C> DAID— A, 
习题 3.5.3 ”运用 节 3.5.3 中 的 闭 包 测试 方法 ,证 明 下 面 的 规则 。 
* a) 增 广 左 边 (augmenting left sides )。 如 果 FD Aj A2... An 一 8 成 立 ， 且 C 是 另 一 个 属性 ， 
那么 可 推出 4 Ap... AnC > Bo 








b) 42838 7° (full augmentation), WRFD A, Az... A. 一 B 成 立 ， 且 C 是 男 一 个 属性 ， 
那么 可 推出 A1 Ar... AWC 一 BC。 注 意 ， 利 用 这 个 规则 ， 可 以 很 容易 地 证 明 3.5.6 节 中 
方 框 中 所 提 及 的 增 广 (augmentation ) 律 。 
c) 假 传递 ( pseudotransitivity ), 假设 FD A; Az... An —> By By... Bn 和 CI Cz... Ck > DROL, 
且 B 中 元 素 都 在 C 中 。 则 A41 Ar... A, E E.. E> DD 成 立 ， 其 中 E 的 元 素 都 在 C 中 ， 而 没 
有 任何 元 素 在 B 中 。 . 
d) #a7% (addition )。 如 果 FD A; Az... An 一 Bi Bo... Bm 和 CC Ck > Di Dy... D; ROL, 
那么 FD A; A2...An Ci C2...Cy > Bi Ba... By Di D2... DD; 也 成 立 。 但 要 先 确保 4、C 合 集 
和 B8、DD 合 集中 无 相同 的 元 素 。 
习题 3.5.4 通过 给 出 关系 例子 证 明 下 列 规则 无 效 ， 例 子 要 满足 给 定 FD 集 (RE “P ja 
的 )， 但 不 满足 导出 FD 集 ( 跟 在 “then” 后 的 )。 
* aif A— B then B> A, 
b) if AB—> C and AC, then BC, 
c)if AB — C, then A—C or B> C. 
习题 3.5.5 ”证明 若 一 个 关系 不 具有 由 其 他 所 有 属性 函数 决定 的 属性 ， 那 么 这 个 关系 根本 
就 没有 非 平 凡 FD。 
习题 3.5.6 令 X 和 7 是 属性 集合 。 证 明 如 果 X 是 Y 的 子 集 ， 那 么 X* 也 是 产 的 子 集 ， 其 中 六 :和 
严 分 别 是 X 和 Y 关 于 同一 个 FD 集 的 闭 包 。 
! 习题 3.5.7 WEH (X+) +=x*, 
! 习题 3.5.8 WRX =X， 就 认为 属性 集合 X 封 闭 (关于 一 个 指定 的 FD 集合 )。 考 虑 模式 为 R 
(A, B, C, D) 的 关系 R 和 一 个 未 知 的 FD 集合 。 若 能 得 知 哪个 属性 集合 是 封闭 的 ， 就 可 以 
找到 Fp。 根据 下 列 条 件 ， 求 出 FD 集合 。 
* a) 这 四 个 属性 的 所 有 集合 都 是 封闭 的 。 
b) 只 有 中 和 { 4，B，C，D} 是 封闭 的 。 
c) 封闭 集 是 @，{4，B } 和 { A, B, C, D}. 
习题 3.5.9” 找 出 例 3.22 中 关系 的 所 有 最 小 化 的 基本 FD 集 。 
习题 3.5.10 ”假设 有 一 关系 R{4，B，C，D，E} 和 一 些 FD， 把 它 投影 到 S (A, B, Ch 下 
面 给 出 R 中 的 FD 集合 ， 求 出 5 中 的 FD 集合 。 
* a) AB— DE, C—E, D—C 和 E— A, 
b) A—D, BD >E, AC— EMDE >B, 
c) AB—D, AC—E, BC—D, D—A 和 E —B。 
d)A—B, B>C, C>D, D> EME A, 
对 于 每 种 情况 ， 给 出 的 最 小 化 基本 FD 集合 。 
! 习题 3.5.11 证 明 可 使 用 Armstrong 公 理 证 明 一 个 FDF 是 从 给 定 FD 集 合 中 推出 的 。 提 示 
研究 计算 属性 集合 闭 包 算法 ， 给 出 算法 的 每 一 步 怎 么 与 Armstrong 公 理 相 对 应 。 


3.6 关系 数据 库 模 式 设计 


选择 关系 数据 库 模式 不 仔细 的 话 会 带 来 问题 。 例 如 ， 例 3.6 中 组 合 一 个 多 对 多 联系 的 关系 
和 一 个 与 此 联系 相连 的 实体 集 的 关系 ， 就 产生 了 问题 。 它 的 主要 问题 就 是 宛 余 ， 也 就 是 同一 个 
事实 在 多 个 元 组 中 重复 。 这 个 问题 在 图 3-17 中 已 见 到 ， 现 在 把 它 再 现在 图 3-21 中 。 如 果 出 演 影 
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BATA, Stars WarsflWayne’s Wor1gd 的 类 型 和 长 度 就 要 重复 一 次 。 

这 节 将 解决 怎样 设计 一 个 好 的 关系 模式 的 问题 ， 下 面 是 设计 步骤 : 

1. 首先 当 模 式 有 问题 时 ， 要 对 这 个 问题 进行 深入 地 研究 。 

2. 其 次 ， 引 进 一 种 “分 解 ” 的 思想 ， 也 就 是 把 一 个 关系 模式 ( 属性 集合 ) 分 解 为 两 个 较 小 
的 模式 。 

3. 再 下 一 步 ， 引 进 “Boyce-Codd 范 式 ”， 即 “BCNF”， 这 是 一 种 在 关系 模式 上 消除 上 述 问 
题 的 条 件 。 

4. 把 上 面 的 几 点 结合 起 来 解释 怎样 通过 分 解 关 系 模式 来 确保 BCNF。 

title | year | length | filmType | studioName | starName 


1977 | 124 color Fox 
Fox 












Carrie Fisher 
Mark Hamill 
Fox Harrison Ford 
Disney Emilio Estevez 
Paramount | Dana Carvey 
Paramount | Mike Meyers 


图 3-21 显示 异常 的 关系 Movies 


Star Wars 
Star Wars 
Star Wars 
Mighty Ducks 

Wayne’s World 
Wayne’s World 











3.6.1 异常 

当 一 个 关系 中 含有 过 多 信息 时 产生 的 问题 如 元 余 就 叫做 异常 (anomaly )。 异 常 的 基本 类 型 有 ， 

1. 元 余 (redundancy )。 信 息 没有 必要 地 在 多 个 元 组 中 重复 。 如 图 3-21 中 Movies 关 系 的 
length 和 filmType 字 上 段 。 

2. 更 新 异常 (Update Anomaly )。 可 能 修改 了 一 个 元 组 的 信息 ,但 是 没有 改变 其 他 元 组 中 
的 相同 信息 。 例 如 ，Star Wars 的 实际 放映 时 间 为 125 分 钟 ， 这 时 可 能 对 图 3-21 中 的 第 一 个 元 组 
的 length 作 了 改变 , 但 是 没有 改变 第 二 个 和 第 三 个 元 组 的 信息 。 是 的 ， 没有 人 会 这 么 粗心 的 
但 是 ， 如 果 重新 对 关系 Movies 进 行 设计 ， 那 么 引起 这 种 错误 的 危险 就 不 复 存在 。 

3. 删除 异常 (Deletion Anomaly )。 如 果 一 个 值 集 变 成 空 集 ， 就 可 能 丢失 信息 。 例 如 ， 假如 
要 从 Mighty Ducks 的 影星 集合 中 删除 Emilio Estevez， 则 数据 库 中 就 不 再 存在 出 演 这 部 电影 的 影 
星 的 记录 。 在 关系 Movies 中 的 最 后 一 个 Mighty Ducks 元 组 就 会 消失 ， 并 且 它 的 其 他 信息 如 片 
长 104 分 钟 和 类 型 为 colocr 等 也 会 在 数据 库 中 消失 。 

3.6.2 ”分解 关系 

一 般 用 分 解 (decompose) 关系 的 方法 来 消除 异常 。 分 解 R 不 但 要 分 离 R 的 属性 ， 使 其 组 成 
两 个 新 的 关系 ， 还 要 对 R 进 行 投影 以 转移 元 组 的 信息 到 这 两 个 关系 中 。 描 述 完 分 解 过 程 后 , 将 
介绍 怎样 分 解 才能 消除 异常 。 

给 定 一 个 模式 为 {4:，42，.…，4， } 的 关系 尺 要 把 它 分 解 为 关系 S 和 T， 它 们 的 模式 分 别 为 
{B81!，B;，...，Bn } 和 {Cl，C,，...，Ci }， 并 日 满足 : 

1. { Ai, Ao, ..., A }={B!, Bo, ..., Br}U{L Ci, Cr, ..., Cr}o 

2. 5 中 的 元 组 是 R 中 所 有 元 组 在 { Bi, Bo, ..., Bn } 上 的 投影 (projection )。 也 就 是 ， 对 于 R 
的 当前 实例 的 任 一 元 组 :， 取出 :在 属性 8!，B,，...，B。 上 的 相应 分 量 。 这 些 分 量 就 组 成 了 一 个 
属于 5 当前 实例 的 元 组 。 由 于 5 为 集合 ， 从 R 中 两 个 不 同 的 元 组 投影 到 Ss 的 元 组 有 可 能 是 重复 的 ， 
这 时 就 只 需 保留 一 份 。 

3. 同样 ，7 中 的 元 组 也 是 R 的 当前 实例 的 所 有 元 组 在 属性 集合 { C;,，C;，...，Ci} 上 的 投影 。 

例 3.24 分解 图 3-21 中 的 关系 Movies。 首 先 要 对 模式 进行 分 解 。 怎 么 分 解 更 有 好 处 在 
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3.6.3 节 有 介绍 ， 在 这 里 Movi es 分 解 为 : 
1. 关系 Movies1， 它 的 模式 包含 了 除 starName 外 的 其 他 属性 。 
2. 关系 Movies2， 它 的 模式 包含 了 属性 title，year 和 starName。 
下 面 将 给 出 分 解 图 3-21 中 关系 实例 的 过 程 。 第 一 步 是 投影 到 模式 Movies1: 


{title, year, length, filmType, studioName} 

图 3-21 中 的 前 三 个 元 组 在 这 五 个 属性 上 取 的 值 都 相同 ， 为 

(Star Wars, 1977, 124, color, Fox) 

第 四 个 元 组 产生 了 在 这 五 个 属性 上 取 值 均 不 同 的 元 组 。 而 第 五 个 和 第 六 个 元 组 也 产生 了 在 
这 几 个 属性 上 取 值 相同 的 元 组 。 投 影 后 的 结果 Movies1 见 图 3-22。 


title year | length | filmType | studioName 
Star Wars 1977 | 124 color Fox 
Mighty Ducks 1991 | 104 color Disney 
Wayne’s World | 1992 | 95 color Paramount 


图 3-22 关系 Movies1 


下 一 步 是 投影 到 模式 Movies2。 这 六 个 元 组 中 每 一 个 在 三 个 属性 titie、year 和 
starName 上 的 取 值 至 少 有 一 个 与 其 他 五 个 不 同 ， 因 此 投影 结果 如 图 3-23 所 示 。 口 


title year | starName 





Carrie Fisher 
Mark Hamill 
Harrison Ford 
Emilio Estevez 
Dana Carvey 
Mike Meyers 


Star Wars 
Star Wars 
Star Wars 
Mighty Ducks 
Wayne’s World 
Wayne’s World 


图 3-23 关系 Movies2 


接着 分 析 在 这 个 例子 中 怎样 用 分 解 来 消除 3.6.1 节 中 所 讲 的 异常 。 在 这 里 ， 宛 余 消除 了 。 例 
如 ， 关 系 Movies1 中 每 部 电影 的 片 长 只 出 现 一 次 。 更 新 异常 消除 了 。 因 为 在 这 里 只 要 对 
Movies1 中 的 一 个 元 组 Star Wars 的 length 进 行 改变 ， 不 会 产生 同一 部 电影 有 不 同 片 长 的 情况 。 

最 后 ,删除 异常 消除 了 。 比 如 ， 删 除 所 有 Mighty Ducks 中 的 影星 ， 将 导致 这 部 电影 从 
Movies2 中 消除 ， 但 是 关于 这 部 电影 的 其 他 信息 仍 可 以 从 Movies1 中 得 到 。 

因为 一 部 电影 的 片 名 和 年 份 可 重复 多 次 ， 在 Movies2 中 仍 存 在 元 余 。 但 是 这 两 个 属性 是 
Movies 的 键 , 没有 更 简洁 的 方法 可 以 描述 一 部 电影 了 。 此 外 ，Movies2 根 本 不 会 出 现 更 新 异 
常 。 例 如 ， 可 能 会 有 人 认为 车 把 starName 为 Carrie Fisher 的 年 份 改 为 2003， 而 不 对 Star Wars 
的 其 他 两 个 元 组 进行 改变 ， 那 么 就 会 引起 更 新 异常 。 然 而 有 可 能 存在 这 样 一 部 名 为 Star Wars, 
影星 为 Carrie Fisher 而 年 份 为 2003 年 的 电影 。 因 此 ， 不 能 阻止 在 Star Wars 的 某 个 元 组 中 改变 
Year， 也 不 能 保证 这 种 改变 一 定 正确 。 
3.6.3 Boyce-Codd 范 式 

分 解 的 目的 就 是 将 一 个 关系 用 多 个 不 会 产生 异常 的 关系 替换 。 也 就 是 说 ， 在 一 个 简单 的 条 
件 下 保证 前 面 讨论 的 异常 不 产生 。 这 个 条 件 称 为 Boyce-Codd 范 式 ， 或 称 为 BCNF。 

。 关 系 R 满 足 BCNF 当 且 仅 当 : 如 果 R 中 非 平 凡 FD A: Az... An 一 BRZE, 则 {A1，A2，...，A,} 

是 关系 R 的 超 键 。 
换言之 ， 每 个 非 平凡 FD 的 左边 都 必须 是 超 键 。 由 于 超 键 不 一 定 是 最 小 化 ， 因 此 ，BCNE 的 
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一 个 等 价 描述 是 ， 每 个 非 平凡 FD 的 左边 必须 包含 键 。 

当 发 现 一 个 FD 违 反 BCNEF 时 ， 一 个 更 简单 的 将 关系 完全 分 解 到 BCNF 关 系 的 方法 是 ， 只 要 
在 这 个 FD 右 端 浴 加 与 其 左 端 相同 的 所 有 其 他 FD 的 右 端 ， 而 不 管 那 些 FD 是 否 违反 BCNF， 就 能 
使 其 对 应 的 关系 模式 满足 BCNF。 下 面 是 BCNF 的 另 一 种 定义 ， 这 里 人 们 寻找 具有 相同 左边 的 
FD 集合 ， 其 中 至 少 有 一 个 是 非 平 几 FD， 并 且 不 满足 BCNF: 

。 关 系 R 满 足 BCNF 当 和 是 仅 当 : 如 果 R 中 非 平凡 FD A; Ap... An 一 By Bo... Bm 成 立 ， 则 { Ay, 

Az, ~, An } 是 关系 R 的 超 键 。 

这 个 定义 与 前 一 个 定义 等 价 。 由 于 FD A Ao... A, 一 By By... 五, 是 FD 集 合 4 Ar... An > B: 
(i=l, 2, .., m) 的 缩 略 形式 ， 因此 至 少 有 一 个 有 不 在 4 中 (AM, A Ao... An 一 B, Bo... Bn 是 
平凡 的 )。 而 根据 最 初 的 定义 ，A41 Ar... An 一 Bi 是 BCNF 侵 犯 。 

例 3.25 图 3-21 的 关系 Movies 不 属于 BCNF， 下 面 将 给 以 证 明 。 首 先 要 确定 键 ， 例 3.13 中 
已 求 出 {title,，year，starName} 是 键 。 因 此 ， 任何 包含 这 三 个 属性 的 集合 就 是 超 键 。 从 
例 3.13 可 以 得 出 任何 不 包含 这 三 个 属性 的 集合 都 不 是 超 键 的 结论 。 因 此 ，{ title, year， 
starName} 是 Movies 的 惟一 键 。 


可 是 ,根据 例 3.13 可 知 Movies 中 存在 FD 


title year 一 length filmType studioName 


对 这 个 FD 进 行 考 虑 ， 可 看 出 它 的 左边 不 是 超 键 。 特 别 是 ，title 和 Year 不 能 函数 决定 属 
性 starName ， 因 此 这 个 FD 违 反 了 BCNF 条 件 ， 说 明 Movies 的 模式 不 是 BCNF。 而 且 ， 根 据 
BCNEF 的 原始 定义 (FD 的 右边 是 单个 的 属性 )， 可 得 出 这 三 个 FD 的 任何 一 个 ， 如 title year 
—length, Hk T BCNF, 口 


例 3.26 另 一 方面 ,图 3-22 中 的 Movies1 模 式 是 BCNF。 因 为 该 关系 中 存在 FD 


title year 一 length filmType studioName 


并 且 已 知 Movies1 的 惟一 键 是 {title，year}。 另 外 ， 仅 有 的 非 平凡 FD 左边 至 少 要 有 
title 和 year， 因 此 这 个 非 平凡 FD 的 左边 一 定 是 超 键 。 这 也 就 是 说 ，Movies1 模 式 满足 
BCNF, 口 

$13.27 任 一 个 二 元 关系 属于 BCNF。 对 此 必须 审查 所 有 可 能 的 右边 是 单个 属性 的 非 平凡 
FD。 由 于 没有 太 多 的 情况 可 以 讨论 ， 下 面 将 依次 列 出 这 些 情况 。 假 设 属 性 为 4 和 B。 

1. 没有 非 平凡 FD。 于 是 这 个 关系 肯定 满足 BCNF。 因 为 只 有 非 平凡 FD 才能 违反 BCNF。 在 
这 种 情况 下 { A4，8 } 是 惟一 的 键 。 

2. A 一 BRL, EB 一 4 不 成 立 。 在 这 种 情况 下 ，A 是 惟一 的 键 ， 每 个 非 平凡 FD 的 左边 都 
包含 4 (事实 上 ， 左 边 只 能 是 4 )。 此 时 没有 FD 违反 BCNF。 

3.8 一 A 成 立 , 但 4 一 B 不 成 立 。 这 种 情况 与 第 二 种 情况 类 似 ， 只 不 过 是 4 ，B 对 调 。 

4. A 一 B 和 8 一 4 都 成 立 。 于 是 4 和 8 都 是 键 。 任 一 FD 的 左边 至 少 包 含 4 和 8B 的 其 中 一 个 。 
此 时 ,没有 FD 违反 BCNF。 

值得 注意 的 是 ， 对 于 第 四 种 情况 可 能 会 有 多 个 键 。 此 外 ，BCNF 条 件 要 求 的 是 任 一 个 非 平 
凡 FD 的 左边 只 需要 有 键 则 可 ， 不 一 定 是 全 部 的 键 。 对 于 只 有 两 个 属性 的 关系 ， 每 个 都 函数 决 
定 另 一 个 的 情形 并 不 难以 置信 。 例 如 ， 一 个 公司 会 分 配给 它 的 员工 惟一 的 rD， 并 且 记 录 他 们 
的 社会 保险 号 。 一 个 只 有 empID 和 ssNO 的 关系 中 的 每 个 属性 都 函数 决定 其 他 的 属性 。 换 言 之 ， 
就 是 每 个 属性 都 是 键 ， 因 此 也 就 没有 两 个 元 组 在 某 个 属性 上 的 值 相同 。 口 





3.6.4 分 解 为 BCNF 

重复 使 用 适当 的 分 解 ， 可 以 把 任何 一 个 关系 模式 分 解 为 具有 下 列 重要 性 质 的 多 个 真子 集 : 

* 这些 真子 集 都 是 满足 BCNE 的 关系 模式 。 

“ 原始 关系 中 的 数据 都 正确 地 反映 在 分 解 后 的 关系 上 ， 对 此 3.6.5 节 的 说 法 更 精确 。 简 单 讲 ， 

是 要 求 原始 关系 实例 应 能 从 分 解 后 的 几 个 关系 实例 中 重 构 。 

从 例 3.27 可 看 出 一 个 关系 被 分 解 为 多 个 二 元 关系 后 必然 满足 BCNF。 但 是 这 样 武断 的 分 解 
无 法 满足 上 述 第 二 个 性 质 ，3.6.5 节 会 给 出 关于 这 一 点 的 说 明 。 所 以 分 解 关系 模式 时 必须 非常 小 
心 ， 事 实 上 可 利用 违反 BCNF 的 条 件 来 进行 分 解 。 

下 面 给 出 分 解 的 步 又。 首先 寻找 违反 BCNF 条 件 的 非 平 凡 FD A, Ap... 4 一 Bi Br... Bn, tH 
就 是 要 找 ，{ A!，4，，...，4,} 不 是 超 键 的 FD。 
一 个 局 发 是 : 尽 可 能 地 往 FD 的 右边 增加 足够 多 
的 由 { 4:，42，…，4} 决 定 的 属性 。 图 3-24 说 
明了 属性 集合 如 何 被 分 解 到 两 个 重 到 的 关系 模 其 他 
式 ， 其 中 一 个 模式 包含 了 上 述 FD 的 所 有 属性 ， 
而 另 一 个 包含 了 位 于 这 个 FD 左 边 的 属性 和 不 属 
于 FD 的 所 有 属性 ， 即 除了 只 属于 8 而 不 属于 4 W324 基于 不 满足 BCNF 的 关系 模式 分 解 
的 属性 的 所 有 属性 。 

例 3.28 考虑 图 3-21 中 的 关系 Movies。 从 例 3.25 知 FD 

title year 一 length filmType studioName 

违反 BCNF。 在 这 个 FD 中 ， 右 边 已 经 包含 了 由 title 和 year 函数 决 定 的 所 有 属性 ， 所 以 
可 以 把 Movies 分 解 为 : 

1. 含有 上 述 FD 所 有 属性 的 模式 ， 也 就 是 : 

{title, year, length, filmType, studioName} 

2. 除了 上 述 FD 右 边 的 三 个 属性 外 ， 包 含 了 其 他 所 有 属性 的 模式 。 也 就 是 : 

{title, year, starName} 

上 面 两 个 模式 就 是 例 3.24 中 给 出 的 Movies1 和 Movies2。 例 3.26 中 也 证 明了 它们 都 满足 
BCNE, 口 


例 3.29 考虑 例 3.21 中 的 关系 Moviestudio， 它 存储 了 关于 电影 (Movies )， 及 其 所 属 
制 片 厂 和 这 些 制 片 厂 地 址 的 信息 。 图 3-25 给 出 了 这 个 关系 的 模式 和 一 些 典 型 的 元 组 。 


title year | length | flmType | studioName | studioAddr 
Star Wars 1977 | 124 color Fox Hollywood 
Mighty Ducks 1991 | 104 color Disney Buena Vista 
Wayne’s World | 1992 | 95 color Paramount | Hollywood 


Addams Family | 1991 | 102 color Paramount | Hollywood 
图 3-25 关系 Moviestudio 


注意 MovieStudio 包 含 宛 余 信息 ， 这 是 因为 studioName 为 “Paramount” 的 两 个 元 组 中 
studioAqddr 相 同 。 然 而 这 个 问题 与 例 3.28 中 出 现 的 问题 不 同 ， 在 例 3.28 中 ， 问题 的 缘由 是 一 
个 多 对 多 的 联系 ( 给 定 的 一 部 电影 中 有 多 个 影星 ) 同 电影 的 其 他 信息 存储 在 一 起 。 而 在 这 个 例 
子 中 ,每 个 属性 都 是 单 值 : 如 影片 的 Length， 连接 电影 和 其 惟一 的 制 片 厂 的 联系 ownedBRy 和 
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制 片 三 的 地 址 stuaioadqr。 
在 这 个 例子 中 ， 问 题 是 出 于 存在 一 个 “传递 依赖 ”。 也 就 是 ， 与 例 3.21 中 所 讨论 的 ， 关 系 
MovieStudio 含 有 FD 集合 : 


title year 一 studioName 
studioName — studioAddr 


对 这 两 个 FD 使 用 传递 规则 可 得 : 

title year 一 studioAddr 

也 就 是 说 ，title 和 year (关系 Movies 的 键 ) 函数 决定 制 片 三 的 地 址 ， 即 拥有 该 影片 的 
制 片 三 的 地 址 。 因 为 

title year 一 length filmType 

显然 是 关系 中 存在 的 另 一 个 函数 依赖 ， 所 以 可 得 出 {title，year}) 是 Moviestudio 的 
键 。 事 实 上 ， 它 也 是 惟一 的 键 。 

另 一 方面 ， 传 递 规则 的 其 中 一 个 FD: 


studioName -> studioAddr 


是 左边 不 是 超 键 的 非 平凡 FD。 这 就 说 明了 Moviestudio 不 满足 BCNF。 于 是 可 以 根据 上 
述 分 解 规则 解决 该 元 余 问 题 。 分 解 后 的 第 一 个 模式 是 这 个 FD 本 身 属 性 的 集合 ， 即 
{studioName，studioAdar}。 第 二 个 模式 是 除 属性 studioadar 外 的 MovieStudio 中 
所 有 属性 的 集合 。 不 包含 studioaddr 的 原因 是 它 位 于 FD 的 右边 ， 这 个 模式 为 ; 


{title, year, length, filmType, studioNane} 


图 3-25 在 这 些 模式 上 投影 得 出 的 两 个 关系 是 Moviestudio1 和 Moviestudio2， 分 别 
显示 在 图 3-26 和 图 3-27 中 。 这 两 个 关系 都 满足 BCNF。 回 想 3.5.7 节 的 讨论 ， 对 于 分 解 后 的 每 个 
关系 ， 还 需 通过 计算 它们 属性 集合 的 每 个 子 集 的 闭 包 ， 使 用 给 定 FD 的 完全 集合 来 计算 它们 的 
FD 集 合 。 通 常 ， 这 个 过 程 的 复杂 度 为 分 解 后 关系 中 属性 数目 的 指数 寡 ， 但 也 可 根据 3.5.7 节 进 
行 简 化 。 

在 这 个 例子 中 ， 找 出 Moviestudio1 的 基本 依赖 很 容易 ， 它 是 : 

title year 一 length filmType studioname 


而 在 Moviestudio2 中 ， 仅 有 的 非 平凡 FD 为 ， 


studioName 一 studioAddr 


因此 ,Moviestudiol 的 惟一 键 是 {title， year}，MovieStudio2 的 惟一 键 是 
tstudioName}。 在 这 两 个 关系 中 所 存在 的 非 平 凡 FD 的 左边 都 包含 了 键 。 口 





title year | length | filmType | studioName 
Star Wars 1977 | 124 color Fox 
Mighty Ducks 1991 | 104 color Disney 
Wayne’s World | 1992 | 95 color Paramount 
Addams Family | 1991 | 102 color Paramount 








图 3-26 关系 Moveistudiol 


虽说 从 前 面 的 每 个 例子 看 出 ， 已 有 足够 的 分 解 规则 支持 将 一 个 关系 分 解 为 满足 BCNF 的 多 
个 关系 ,但 情况 并 非 如 此 。 
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studioName | studioAddr 


Fox Hollywood 
Disney Buena Vista 
Paramount Hollywood 


图 3-27 KRMovieStudio2 110 
例 3.30 ”将 例 3.29 中 的 关系 加 以 总 结 并 生成 长 度 大 于 2 的 FD 链 。 考 虑 关系 模式 


{title, year, studioName, president, presAddr} 


这 个 关系 的 每 个 元 组 给 出 信息 包括 片 名 、 所 属 制 片 三 、 制 片 厂 经 理 (president) 及 经 理 地 
hk (PresAddr) 的 信息 。 这 个 关系 上 可 能 有 的 三 个 FD 是 : 


title year 一 studioName 
studioName — president 
president 一 presAddr 


关系 的 惟一 键 是 {title，year}。 因 此 上 述 最 后 两 个 FP 都 违反 了 BCNEF 条 件 。 假 设 利用 
下 面 的 FD 开始 分 解 ， 即 : 


studioName -> president 
首先 ， 要 往 这 个 函数 依赖 的 右边 添加 在 studioName 闭 包 中 的 其 他 属性 。 在 FD studio- 
Name—president 和 FD president 一 presAddr 上 运用 传递 规则 ,可 得 到 FD 
studioName + presAddr 
组 合 左 边 都 是 studioName 的 两 个 FD， 得 到 


studioName 一 president presAddr 


它 的 右边 已 达到 最 大 化 ， 于 是 把 关系 分 解 为 下 面 两 个 关系 模式 ; 


{title, year, studioName} 
{studioName, president, presAddr} 


若 使 用 3.5.7 节 中 的 投影 算法 ， 就 可 确定 第 一 个 关系 有 基本 FD: 


title year 一 studioName 
而 第 二 个 关系 有 基本 FD: 


studioName — president 
president — presAddr 


因此 ， 第 一 个 关系 惟一 的 键 是 {title，year}， 它 满足 BCNF。 第 二 个 关系 也 有 惟一 键 
{studioName}， 但 是 FD: 


president 一 presAddr 111 


违反 BCNF。 因 此 ， 必 须 再 进一步 利用 这 个 FD 对 第 二 个 关系 进行 分 解 。 所 得 的 三 个 关系 均 
满足 BCNF， 其 模式 为 : 


{title, year, studioName} 
{studioName, president} 
{president, presAddr} 


N 
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通常 ， 必 须 反 复 使 用 分 解 规则 ， 直 至 所 得 的 关系 均 满 足 BCNF。 这 样 做 一 定 会 成 功 ， 因 为 
每 次 运用 分 解 规则 后 ， 所 得 到 的 模式 中 的 属性 个 数 都 比 R 的 属性 个 数 少 。 例 如 例 3.27， 当 分 解 
为 只 有 两 个 属性 的 集合 后 ， 所 得 关系 肯定 满足 BCNF。 但 很 多 情况 下 ， 有 多 个 属性 的 关系 也 满 
JEBCNF, 

3.6.5 从 分 解 中 恢复 信息 

下 面 要 考虑 的 是 为 什么 3.6.4 节 中 的 分 解 算法 仍 保持 原 关系 中 的 信息 。 它 的 思想 是 如 果 遵 循 
这 个 算法 ， 则 原始 元 组 的 投影 可 被 重新 连接 ， 人 恢复 成 与 原 元 组 完全 相同 的 元 组 。 

为 了 简化 起 见 ， 下面 只 考虑 关系 R( A，B，C ) 和 一 个 违反 BCNF 条 件 的 FD B 一 C。 如 同 
例 3.29 中 的 关系 一 样 ，FD 8 一 C 与 男 一 FD 4 一 B 构 成 传递 依赖 链 。 在 这 种 情况 下 ，{A} 是 惟一 
的 键 ， 而 8B 一 C 的 左边 不 是 超 键 。 另 一 种 可 能 的 情况 是 ，B 一 C 是 惟一 的 非 平凡 FD， 此 时 惟一 
的 刍 是 { A4，B }。 同 样 ，B 一 C 的 左边 仍 不 是 超 键 。 在 这 两 种 情况 下 ， 根 据 FD B 一 C 可 把 R 的 
模式 分 解 为 { A，B } 和 { B,C }。 

令 t 是 R 的 一 个 元 组 ， 并 可 写 为 1= {a，b，c} ， 其 中 a，b 和 c 是 {相应 于 属性 4，B 和 C 的 分 量 。 
元 组 ! 在 关系 模式 { A4，B} 上 投影 是 (a，b )， 而 在 关系 模式 { B，C} 上 投影 是 (b,c )。 

由 于 元 组 在 8 上 的 分 量 相同 ， 可 以 连接 { 4，B} 的 元 组 和 { B，C} 的 元 组 。 尤 其 当 连 接 (a, 
b) 和 (a, c) 后 ,可 以 得 到 原始 元 组 := (a，b，c )。 也 就 是 说 ， 不 管 哪个 元 组 都 可 以 恢复 原 
来 的 信息 。 

然而 ,恢复 那些 被 分 解 的 关系 元 组 ， 并 不 t 
足以 确保 原始 关系 R 一 定 能 被 分 解 的 关系 正确 
表示 。 如 果 R 中 有 元 组 := (a, b, c) 和 v= (d, 
2，e )， 那 会 有 什么 样 的 结果 ? 如 图 3-28 所 示 ， 
把 投影 到 {A4，B} 上 可 得 x = (a，b )， 而 把 v 投 
影 到 { B，c} 上 可 得 w = (b, e) 

由 于 u 和 w 在 8 上 的 分 量 相同 ， 可 把 它们 进 
行 连 接 。 则 所 得 的 元 组 为 zx= (a, b, e)s xf 
能 是 个 伪 元 组 吗 ? 也 就 是 说 ，x 可 能 不 是 R 的 一 
个 元 组 吗 ? 

因为 已 假设 R 中 存在 FD B— C, 所 以 答案 图 3-28 连接 投影 后 的 两 个 元 组 
是 “ 否 ”。 这 个 FD 意味 着 R 中 的 两 个 元 组 只 要 在 8 上 的 分 量 相 同 ， 它 们 在 C 上 的 分 量 一 定 相同 。 
而 ! 和 "满足 这 个 条 件 〈 都 有 5 )， 于 是 它们 在 C 上 的 分 量 也 应 相同 。 这 意味 着 ，c = e。 也 就 是 说 ， 
假设 的 不 同 值 其 实 是 相同 的 。 因 此 ,(a，b,c ) 就 是 (a, b, e), Bixee, 

由 在 R 中 可 知 x 一 定 也 在 R 中 。 换 言 之 ， 只 要 RR 中 存在 FD B 一 C， 连 接 两 个 投影 后 的 元 组 不 
会 生成 一 个 伪 元 组 。 而 且 ， 每 一 个 连接 形成 的 元 组 肯定 属于 R。 

通常 这 个 论断 是 正确 的 。 虽 然 这 里 假设 4 ，B 和 C 都 是 单个 的 属性 ， 事 实 上 ， 它 对 属性 集合 
同样 也 成 立 。 也 就 是 ， 对 于 任何 违反 BCNF 条 件 的 FD， 令 8 是 位 于 它 左 边 的 集合 ， C 是 位 于 它 
右边 的 但 不 在 左边 出 现 的 属性 集合 ，4 是 不 出 现在 任何 一 边 的 属性 集合 。 则 有 下 列 的 结论 ; 

。 如 果 根 据 3.6.4 节 所 提 的 方法 分 解 一 个 关系 ， 不 论 用 何 种 方式 连接 新 生成 关系 都 可 以 正确 

如 果 使 用 一 种 不 基于 某 个 FD 的 方法 分 解 关 系 ， 可 能 不 能 恢复 原始 关系 。 下 面 是 一 个 这 样 
的 例子 。 
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$13.31 假设 有 一 个 与 上 面 关 系 相同 的 R (A, B, C), 但 是 关系 中 不 存在 FD B — C. RE 
能 包含 了 下 面 两 个 元 组 
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因为 这 四 个 元 组 在 8 上 的 分 量 相同 ， 值 均 为 2， 所 以 可 把 这 两 个 关系 进行 连接 。 此 时 ， 就 会 
得 到 


从 图 中 可 看 出 ， 所 得 关系 的 元 组 多 于 原始 关系 中 的 元 组 ， 即 存在 两 个 伪 元 组 (1，2，5 ) 
FI (4, 2, 3) 口 


3.6.6 第 三 范式 
人 们 有 时 会 不 想 对 一 个 不 满足 BCNF 的 关系 继续 分 解 。 下 面 给 出 一 个 典型 的 例子 。 
$13.32 ”假设 关系 Bookings 含 有 属性 : 
1. title， 电 影 的 名 字 。 
2. theater， 放 映 电影 的 影院 名 。 
3. city， 影 院 所 处 的 城市 。 
TH (m, t, c) 的 意思 是 名 为 m 的 电影 正在 城市 c 中 的 影院 1 放映 。 
对 于 这 个 关系 可 声明 下 面 的 FD: 


theater > city 
title city — theater 114 


第 一 个 FD 说 明 一 个 影院 位 于 一 个 城市 ， 而 第 二 个 FD 的 含义 虽 不 明显 ， 但 也 可 基于 这 样 的 
假设 ， 即 一 部 电影 不 能 在 同一 个 城市 中 的 两 个 影院 中 放映 。 这 样 假设 只 是 为 了 说 明 这 个 例子 。 

首先 要 找到 键 。 其 中 没有 单个 的 属性 是 键 。 例 如 ，title 不 是 键 是 因为 一 部 电影 可 同时 在 
多 个 影院 或 在 多 个 城市 放映 。 同 样 ，theater 不 是 键 ， 虽然 theater 函 数 决 定 city， 但 仍 
存在 可 以 同时 放映 多 部 电影 的 影院 。 这 也 就 是 说 ，theater 不 是 键 。 而 因为 在 一 个 城市 内 通 
常 有 多 个 影院 和 多 部 电影 放映 ， 所 以 city 也 不 是 键 。 

另 一 方面 ， 两 个 具有 两 个 属性 的 集合 是 键 。 很 明显 ，({title，city} 是 键 ， 这 是 因为 给 


O 该 例 中 假定 没有 同名 的 两 个 “当前 ”的 电影 ， 即 使 是 在 前 述 已 经 看 到 在 不 同年 份 中 可 以 制作 了 两 个 同名 的 
电影 。 
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定 的 FD 已 说 明了 这 两 个 属性 函数 决定 了 theater。 

{theater,，title} 也 是 键 。 观 察 FD theatezr 一 city， 运 用 习题 3.3.3(a) 的 增 广 规则 就 
可 推出 theater title 一 city。 因 为 直觉 上 ， 若 cheater 可 函数 决定 city， 那 么 
theater 和 title 肯 定 能 函数 决定 city。 

而 剩 下 的 属性 对 {city，theater} 不 能 函数 决定 tite， 因 此 不 是 键 。 由 此 ， 仅 有 的 两 个 
键 是 


{title, city} 

{theater, title} 

现在 ,立即 见 到 了 一 个 违反 BCNF 条 件 的 FD theater 一 city。 根 据 这 个 FD， 原 关系 模式 
可 被 分 解 为 下 列 两 个 模式 。 


| {theater, city} 
{theater, title} 


但 是 这 个 分 解 存在 一 个 问题 。 考 虑 FD 


title city — theater 


分 解 后 的 关系 中 存在 满足 FD theatet 一 city 的 模式 (WKA{theater, city} ), 但 
若 要 对 分 解 后 的 关系 进行 连接 会 得 不 到 满足 title city 一 theater 的 关系 。 例 如 ， 根 据 上 
述 关 系 中 的 FD， 如 下 两 个 关系 
theater | city 


Guild | Menlo Park 
115 Park Menlo Park 










其 他 范式 

既然 有 “第 三 范式 ”， 那 前 两 个 “范式 ”是 什么 呢 ? 确实 它们 也 有 定义 ， 但 现在 已 很 
少 使 用 它们 了 。 第 一 范式 (first normal form) 只 简单 地 有 要求 每 个 元 组 的 各 分 量 是 原子 值 。 
而 第 二 范式 〈second normal form) 的 限制 比 3NF 少 。 它 允许 关系 中 存在 传递 FD， 但 不 允 
许 有 左边 是 键 真子 集 的 非 平凡 FD 存在 。 还 有 将 在 3.7 节 中 介绍 的 “第 四 范式 ”。 


theater | title , 
Guild | The Net 
Park The Net 


是 允许 的 。 若 连接 这 两 个 关系 ， 就 可 以 得 到 下 面 只 含有 两 个 元 组 的 关系 
theater | city | titie 


Guild | Menlo Park | The Net 
Park Menlo Park | The Net 


但 是 在 这 个 关系 中 不 存在 FD title city—theater, 口 


解决 上 述 问题 的 方法 就 是 稍稍 放宽 对 BCNF 的 限制 。 以 能 够 多 许 例 3.32 中 的 关系 模式 存在 ， 
在 这 种 关系 模式 中 ， 人 们 不 可 能 保证 分 解 后 的 BCNF 关 系 使 每 一 个 原 有 的 FD 仍然 成 立 。 这 种 限 
制 较 少 的 条 件 就 是 第 三 范式 条 件 。 

。 若 在 关系 R 中 存在 非 平 几 FD A Az... 4, 一 B， 且 要 么 {41!/，A，;，...，Ah, ERR, BABB 





于 某 个 键 ， 则 认为 R 属 于 第 三 范式 ( 3NF )。 

一 个 属于 某 个 键 的 属性 常 被 称 为 是 主 属 性 。 因 此 第 三 范式 的 另 一 种 说 法 是 “3NF 关 系 是 那 
些 仅 存在 左边 是 超 键 ， 或 者 右边 是 主 属 性 的 非 平凡 FD 的 关系 ”。 

注意 ，3NF 与 BCNF 条 件 的 区 别 是 句子 :“8 属 于 某 个 键 ( 例如 ， 主 属性 关 。 这 个 句子 使 得 
例 3.32 中 的 FD theater 一 city 成 为 合法 ， 因 为 其 右边 city 是 主 属性 。 

证 明 3NF 满 足 该 假定 已 经 超出 了 本 书 范围 。 也 就 是 说 ， 一 个 关系 模式 总 是 可 以 无 信息 丢失 
地 分 解 到 3NF， 并 且 原 关系 中 的 FD 仍 存 在 于 分 解 后 的 多 个 关系 中 。 虽 说 3NF 已 够 用 ,但 不 分 解 
到 BCNEF 就 会 产生 宛 余 。 

3.6.7 习题 

习题 3.6.1 对 于 下 列 的 关系 模式 和 FD 集合 : 

* a)R(A, B, C, D), 含有 FD: AB—>C, C> DMD >A, 
* b)R(A, B, C, D), 含有 FD;: B-> CHB >D, 

c) R (A, B, C, D), 含有 FD: AB >C, BC>D, CD—>AÑAD >B, 

d) R (A, B, C, D), 含有 FD: A>B, B>C, C> DMD >As 

e)R (A, B, C, D, E), 含有 FD: AB>C, DE >CHB—> D, 

f)R(A, B, C, D, E), HFD: AB >C, C>D, D >BHMD>E, 
完成 以 下 作业 : 

i) 指出 所 有 违反 BCNF 条 件 的 FD。 不 要 忘记 考虑 那些 不 在 上 述 集合 中 ,但 是 由 它们 
推出 的 FED。 可 是 没 必要 考虑 那些 右边 有 多 个 属性 的 FD 。 

ii) 根据 需要 把 关系 分 解 为 满足 BCNE 的 关系 集合 。 

iii) 指出 所 有 违反 3NF 条 件 的 FD。 

iv) 根据 需要 把 关系 分 解 为 满足 3NF 的 关系 集合 。 
习题 3.6.2 在 3.6.4 节 中 曾 指 出 ， 若 可 能 的 话 ， 可 以 增 广 一 个 违反 BCNF 条 件 的 FD 的 右边 
集合 。 但 这 只 是 个 可 选 的 步骤 。 考 虑 模式 为 { A,， B, C, D}, 并 含有 FD 4 一 BHA 一 C 
的 关系 。 因 为 R 的 惟一 键 是 {A4，D}， 所 以 这 两 个 FD 都 违反 了 BCNF 的 条 件 。 假 设 根据 4 一 
8 分 解 R， 那 么 最 终 所 得 的 结果 是 否 与 对 违反 BCNF 条 件 的 FD 4 一 BC 进行 分 解 所 得 结果 相 
同 ? 关 相同， 则 为 什么 相同 ， 否 则 为 什么 不 同 ? 
习题 3.6.3 ”假设 R 与 习题 3.6.2 中 的 R 相 同 , 但 是 它 含 有 的 FD 为 4 一 BMB 一 C。 再 次 比较 
使 用 4 一 8B 进行 分 解 和 使 用 4 一 BC 进行 分 解 的 结果 。 
习题 3.6.4 ”假设 有 一 个 关系 模式 R (A，B，C )， 它 含有 FD A 一 B。 并 假设 要 把 它 分 解 为 
S(A, B) 和 7(B，C )。 给 出 R 的 一 个 实例 ， 使 其 投影 到 9 和 7 后 再 将 两 者 进行 连接 而 所 得 
的 结果 与 原 实例 不 同 。 


3.7 多 值 依赖 


“多 值 依赖 ”(multivalued dependency) 是 两 个 属性 或 属性 集合 之 间 相 互 独立 的 断言 。 它 是 广 
义 的 函数 依赖 ， 在 某 种 意义 上 每 个 FD 就 意味 着 一 个 相应 的 多 值 依赖 。 但 是 仍然 存在 有 不 能 用 
FD 解释 的 属性 集合 相互 独立 的 情况 。 这 一 节 就 要 说 明 引起 多 值 依赖 的 原因 和 在 数据 库 模 式 设 
计 中 如 何 使 用 多 值 依赖 。 
3.7.1 属性 独立 及 伴随 其 产生 的 元 余 

在 设计 关系 模式 时 ， 有 时 会 有 这 样 的 情况 发 生 ， 即 某 个 模式 是 BCNF， 但 在 相应 的 关系 中 


.— 
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还 有 与 FD 无 关 的 元 余 存 在 。 在 BCNF 模 式 中 最 常见 的 导致 元 余 的 情形 ， 是 试图 把 两 个 或 多 个 多 
对 多 联系 置 于 同一 个 关系 中 。 

例 3.33 ”在 这 个 例子 中 ,假设 影星 可 有 多 处 地 址 。 地 址 分 为 街道 (street) 和 城市 (city ) 
两 部 分 。 在 这 个 关系 中 ， 除 了 影星 的 名 字 (name) 和 地 址 属性 外 ， 还 有 Stars-in 信 息 ， 即 含有 某 
个 影星 所 演 电 影 的 片 名 ( tile ) 和 电影 放映 的 年 代 ( year )。 图 3-29 给 出 了 这 个 关系 的 一 个 典型 
的 实例 。 

name street | city | title year 
. Fisher | 123 Maple St. | Hollywood | Star Wars 1977 
. Fisher | 5 Locust Ln. Malibu Star Wars 1977 
. Fisher | 123 Maple St. | Hollywood | Empire Strikes Back | 1980 
. Fisher | 5 Locust Ln. Malibu Empire Strikes Back | 1980 


. Fisher | 123 Maple St. | Hollywood | Return of the Jedi 1983 
. Fisher | 5 Locust in. Malibu Return of the Jedi 1983 


图 3-29 独立 于 电影 的 地 址 集合 


图 中 给 出 了 假想 的 Carrie Fisher 的 两 个 地 址 和 他 主演 的 三 部 著名 的 电影 。 把 某 个 地 址 和 某 
部 影片 进行 连接 是 没有 理由 的 。 由 此 ， 表 达 影星 地 址 和 电影 独立 性 的 惟一 途径 是 把 地 址 和 电影 
相连 的 各 种 组 合 都 罗列 出 来 。 但 是 这 样 的 组 合 显然 有 元 余 。 例 如 ， 图 3-29 中 Carrie Fisher 的 地 
址 重复 了 三 次 (每 个 地 址 对 应 一 部 电影 )， 电 影 重 复 了 两 次 。 

图 3-29 中 不 存在 违反 BCNF 条 件 的 FD， 也 不 存在 非 平凡 FD。 例 如 ， 属 性 city 并 非 由 其 他 
四 个 属性 函数 决定 。 因 为 一 个 影星 可 在 不 同城 市 的 同一 个 街道 有 两 处 居所 。 那 么 就 存在 两 个 除 
了 city 分 量 值 不 同 外 ， 其 他 分 量 值 均 相同 的 两 个 元 组 。 因 此 ， 


name street title year 一 city 


不 是 该 关系 的 FED。 同样 ， 这 五 个 属性 中 的 任 一 个 都 不 由 其 他 四 个 属性 函数 决定 ， 这 一 点 留 给 
读者 来 证 明 。 因 为 不 存在 非 平凡 ED， 所 以 键 由 五 个 属性 形成 ， 于 是 关系 中 不 存在 违反 BCNF 条 
件 的 FD。 口 


3.7.2 多 值 依赖 的 定义 

多 值 依赖 《 常 缩写 为 MVD ) 是 指 在 关系 R 中 ， 当 给 定 某 个 属性 集合 的 值 时 ， 存 在 有 -一 组 与 
关系 中 所 有 其 他 属性 值 独立 的 属性 值 。 精 确 一 点 说 ，R 中 MVD 

A, Az... Ay > By By... Bm 

成 立 ， 是 指 若 给 定 R 中 的 4 属性 值 ， 则 存在 有 一 组 8 中 的 值 ， 这 些 值 独 立 于 R 中 既 不 是 4 也 不 是 B 
的 属性 集合 的 值 。 更 精确 的 说 法 是 ， 若 要 MVD 存 在 ， 则 

对 于 R 中 每 个 在 4 上 取 值 相同 的 元 组 对 t 和 w， 能 找到 满足 下 列 条 件 的 元 组 v: 

1. 在 4 属性 上 的 取 值 与 :和 uw 相 同 ， 

2. 在 8 属性 上 取 值 与 :相同 ; 

3. 与 不 同 于 4 和 B 的 其 他 所 有 属性 上 取 值 与 x 相同 。 

阁 : 和 wu 交换 也 能 使 用 这 个 规则 推断 出 有 第 四 个 元 组 存在 ， 这 个 元 组 同 u 在 8 属性 上 的 取 值 相 
同 ， 而 与 在 其 他 属性 上 的 取 值 相同 。 结 果 是 ， 对 于 任 一 组 4 的 值 ，B 和 其 他 属性 值 的 各 种 组 合 
出 现在 不 同 元 组 。 图 3-30 给 出 了 当 MVD 存 在 时 ，v 是 如 何 与 和 wu 相 关 的 。 

通常 ， 可 以 假设 一 个 MVD 中 的 4 和 B( 左边 和 右边 ) 不 相交 。 然 而 ， 作 为 一 个 FD， 人 允许 把 
4 中 的 某 些 属性 添加 到 8 中 。 也 要 注意 到 它 与 FD 不 同 ，FD 是 从 右边 为 单个 属性 开始 ， 并 且 人 允许 
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用 缩 略 形式 表示 右边 的 属性 集合 ， 而 MVD 一 开 
始 就 考虑 右边 是 属性 集合 的 情形 。 如 同 例 3-35 
所 见 ， 并 不 总 能 把 MVD 的 右边 集合 分 解 为 单个 t 
属性 。 

例 3.34 ” 例 3.33 给 出 了 一 个 MVD,， HAPS  » 
表示 就 是 

name -> street city . u | a : b oo 2 | 

也 就 是 说 ， 对 于 任 一 个 影星 的 name ， 地 址 图 3-30 确保 v 存 在 的 一 个 多 值 依 赖 
与 影星 所 演 的 电影 可 以 不 同 组 合 形式 出 现 。 举 一个 例子 来 说 明 怎样 应 用 MVD 的 正式 定义 ， 考 
虑 图 3-29 中 第 一 个 和 第 四 个 元 组 ; 























name street city title year 
C. Fisher | 123 Maple St. | Hollywood | Star Wars 1977 
C. Fisher | 5 Locust Ln. Malibu Empire Strikes Back | 1980 


设 上 图 中 的 第 一 个 元 组 为 :， 第 二 个 元 组 为 z:， 那 么 根据 这 个 MVD， 可 知 R 中 存在 这 么 一 个 
元 组 ， 其 name 为 C.Fisher，street 和 city 与 元 组 取 值 相同 ， 而 其 他 属性 (title 和 year ) 
与 元 组 x 取 值 相同 。 观 察 图 3-29， 其 中 确实 存在 这 么 一 个 元 组 ， 即 第 三 个 元 组 。 

同样 ， 令 1 为 上 图 中 的 第 二 个 元 组 ， 而 w 为 第 一 个 元 组 。 那 么 根据 这 个 MVD， 可 知 存在 这 么 
一 个 元 组 ，name ，street 和 city 与 { 取 值 相同 ,而 name，title 和 year 与 取 值 相 同 。 观 
察 图 3-29， 确 实 也 存在 这 么 一 个 元 组 ， 即 第 二 个 元 组 。 口 


3.7.3 多 值 依 赖 的 推论 

有 很 多 关于 MVD 的 规则 ， 它 们 与 3.5 节 中 所 给 的 FD 规则 相似 。 例 如 ，MVD 遵 循 

“平凡 依赖 规则 (trivial dependency rule )， 即 如 果 某 个 关系 中 存在 MVD 

A, Az... An —>—> Bi Bo... Bm 

则 41 Ar... An Ci Cr... Cr 也 存在 ， 其 中 C 是 8 中 属性 和 A 中 一 个 或 多 个 属性 的 并 。 相 反 地 ， 也 
可 以 移 走 3 中 属于 4 的 属性 ， 推 导出 MVD A Ap... 4, 一 一 Di Do... D, 成 立 ， 其 中 D 是 B 中 不 属于 A 
的 属性 集合 。 

e ZAUN] (transitive rule )， 即 如 果 关 系 中 存在 4, Ad... A,B: Bo... Br FB, Bo... By 

Ci C2... Ce, M 


— 
Ny 
© 


Al Az... A, Ci C2... Ci 
成 立 。 然 而 ， 任 何 既 属于 B 又 属于 C 的 属性 要 从 右边 集合 中 除去 。 
另 一 方面 ，MVD 不 遵循 分 解 /结合 规则 中 的 分 解 部 分 ， 下面 给 出 了 这 样 的 一 个 例子 。 
例 3.35 再 次 考虑 图 3-29， 图 中 关系 存在 MVD， 


name —> street city 
者 把 分 解 规则 应 用 在 这 个 MVD 上 ， 就 会 有 


name 一 street 


也 成 立 。 这 个 MVD 意 味 着 每 个 影星 的 街道 地 址 ( street ) 独立 于 其 他 属性 ， 其 中 包括 属性 
city。 然 而 ,这 是 错误 的 结论 。 例 如 ， 考 虑 图 3-29 中 的 前 两 个 元 组 ， 根 据 上 述 假 想 的 MVD 可 
推出 R 中 存在 street 相 互 交换 的 元 组 : 


ee 





nN 


i 3 


name | street | city | title | year 

C. Fisher | 5 Locust Ln. Hollywood | Star Wars | 1977 

C. Fisher | 123 Maple St. | Malibu Star Wars | 1977 

但 是 这 种 元 组 是 不 存在 的 ， 因 为 street 为 5 Locust Ln. 是 处 于 城市 Malibu 中 ， 而 不 是 在 
Hollywood。 口 


还 有 一 些 需要 知道 的 关于 MVD 的 规则 ， 第 一 条 是 : 
* 每 个 FD 也 是 MVD。 也 就 是 说 ， 若 存在 4 Ao... 4, 一 Bl Bo... Ba, BBA: Az... A1 >> Bi B... 
Bw 也 成 立 。 | 
为 了 说 明 这 条 规则 成 立 的 理由 ， 假 设 关 系 R 中 存在 FD 
A: Ap... An— Bi Bp... Bn 


而 t 和 uw 是 R 中 在 4 上 的 值 相 同 的 元 组 。 为 了 证 明 MVD A; Az... An —— B, Bo... B, 成 立 ， 就 要 证 明 
也 包含 这 样 的 元 组 v， 它 与 z 和 wu 在 4 上 的 取 值 相同 ,与 :在 8 上 的 取 值 相同 ,并且 与 在 其 他 属性 
上 的 取 值 相同 。 但 是 由 于 v 可 能 是 x， 那 么 与 :和 u 在 4 上 的 取 值 肯定 相同 ， 这 由 假设 可 得 。 而 
FD A, Az... An> B, Bo... Ba 则 确保 了 un 与 在 B 上 的 取 值 相同 。 当 然 u 与 自身 在 其 他 属性 上 的 取 值 
相同 。 因 此 ， 当 存在 FD 时 ， 肯 定 存在 相应 的 MVD。 

另 一 个 规则 是 互补 规则 (complementation rule )， 但 是 不 存在 与 该 规则 对 应 的 FD 规则 。 

* 如 果 关 系 R 中 存在 MVD A; Az... An? By Br... Ba， 则 R 中 也 有 Ai Ar... As 一 一 C1 Co... G 

成 立 ， 其 中 C 属 性 是 R 中 不 存在 于 4 和 8 中 的 所 有 其 他 属性 。 

例 3.36 再 次 考虑 图 3-29， 图 中 关系 存在 MVD: 


name —> street city 


则 互补 规则 说 明了 


name —> title year 


在 R 中 也 成 立 ， 这 是 因为 titie 和 year 是 不 在 第 一 个 MVD 中 被 提 及 的 属性 。 第 二 个 MVD 
直觉 上 意味 着 每 个 影星 可 主演 很 多 部 片子 ， 而 这 是 独立 于 影星 的 地 址 。 口 


3.7.4 第 四 范式 

3.7.1 节 中 由 MVD 引 起 的 元 余 ， 可 通过 依赖 使 用 新 的 分 解 算法 来 消除 。 这 一 节 将 引入 一 种 
新 的 范式 ， 即 “第 四 范式 ”"。 在 这 个 范式 中 ， 同 在 BCNF 中 消除 所 有 违反 BCNF 的 FD 一 样 ， 消 除 
了 所 有 的 非 平凡 (下 面 有 定义 ) MVD。 这 样 做 的 结果 是 ， 分 解 后 的 关系 中 既 不 存在 3.6.1 节 中 
讨论 的 FD 带 来 的 元 余 ， 也 不 存在 3.7.1 节 中 讨论 的 MVD 带 来 的 元 余 。 

当下 列 条 件 成 立时 ， 关 系 R 中 MYD A) Ay... 4 一 一 B; Bo... BÆI E SILKS: 

1. 8 中 没有 一 个 属性 属于 A。 

2. R 中 存在 除了 A4 和 8 之 外 的 属性 。 

“第 四 范式 ”条 件 本 质 上 是 BCNF 条 件 , 但 它 不 是 应 用 于 FD， 而 是 应 用 于 MVD。 正 式 的 定 
义 是 : 

。 在 R 中 ， 如 果 任 一 非 平凡 MVD A, Ap... A 一 一 Bl B;... B, 成 立时 ， 都 有 { A1，A;，...， An} 

是 超 键 ， 则 R 属 于 第 四 范式 (4NF )。 
也 就 是 说 ， 若 一 个 关系 满足 4NF， 则 每 个 非 平凡 MVD 确 实 是 左边 为 超 键 的 FD。 注 意 ， 键 和 超 
键 概念 只 与 ED 有 关 ， 添 加 MVD 不 会 改变 “ 键 ” 的 定义 。 











$13.37 图 3-29 中 的 关系 不 属于 4NF。 例 如 


name — street city 


虽说 是 一 个 非 平 凡 MVD ， 但 其 中 的 name 不 是 超 键 。 事 实 上 ， 这 个 关系 仅 有 的 键 是 所 有 属 
性 的 集合 。 口 

第 四 范式 是 广义 的 BCNF， 每 个 FD 又 是 一 个 MVD。 所 以 只 要 违反 BCNF 条 件 ， 也 必然 违反 
了 4NF 条 件 。 换 而 言 之 ， 只 要 满足 4NF， 也 必然 满足 BCNF。 

然而 也 存在 一 些 满足 BCNF 但 不 满足 4NF 的 关系 。 图 3-29 就 是 一 个 例子 。 这 个 关系 仅 有 的 
键 是 所 有 属性 的 集合 ， 因 此 也 不 存在 非 平凡 FD ， 而 它 确 实 满足 BCNF。 例 3.37 给 出 的 关系 同样 
也 不 属于 4NF。 
3.7.5 分 解 到 第 四 范式 

4NF 的 分 解 算法 与 BCNF 的 分 解 算法 非常 类 似 。 XFA: A2... An—>— B; Bo... Bm, 若 { Al, 
A;，.…，Ah.} 不 是 超 键 ， 则 认为 此 MVD 违 反 了 4NF 条 件 。 这 个 MVD 可 能 确实 符合 定义 ,或 者 只 
是 从 相应 的 FD A, Az... An—> Bi By... Bn 对 应 而 来 ， 因 为 FD 也 是 MVD。 那 么 可 把 存在 违反 4NF 
条 件 的 MVD 关 系 R 分 解 为 两 个 模式 : 

1. 含有 4 和 8B 的 全 部 属性 。 

2. 含有 4 的 全 部 属性 和 不 在 4 和 B 中 的 全 部 属性 。 

例 3.38， 继 续 考 虑 例 3.37， 图 中 存在 违反 4NF 条 件 的 MVD 


name —> street city 


由 分 解 规则 可 知 ， 把 含有 五 个 属性 的 模式 分 解 为 两 个 模式 ， 其 中 一 个 是 只 含有 上 述 三 个 属 
性 的 模式 ， 而 另 一 个 模式 含有 name 和 不 在 MVD 中 出 现 的 属性 ， 即 title 和 year。 于 是 , 分 
解 后 的 两 个 模式 为 


{name, street, city} 
{name, title, year} 


因为 在 这 两 个 模式 中 不 存在 非 平凡 多 值 ( 或 函数 ) 依赖 ， 所 以 它们 都 满足 4NF。 





: 投影 多 值 依赖 

当 把 某 个 模式 分 解 为 4NF 时 ， 有 必要 在 分 解 后 的 关系 中 找到 MVD。 人 们 希望 找寻 

MVD 的 过 程 简单 。 然 而 ， 不 存在 类 似 于 计算 属性 集合 闭 包 来 找 FD 这 样 简单 的 方法 (A 

见 3.5.3 节 )。 事 实 上 ， 推 导 函 数 依赖 和 多 值 依赖 的 完全 规则 集 相 当 复 杂 ， 并 且 已 超出 了 
本 书 的 范围 。3.9 节 中 有 几 处 地 方 提 及 了 怎么 对 待 这 样 的 问题 。 

幸运 的 是 ， 通 常 可 以 通过 使 用 传递 规则 、 互 补 规则 和 交集 规则 [习题 3.7.7(b)] 得 到 分 

解 后 关系 的 相应 MVD。 建 议 读 者 在 例子 和 习题 中 使 用 这 种 方法 。 


注意 ， 在 模式 为 {name，street，city} 的 关系 中 存在 平凡 MVD， 

name — street city 

其 原因 是 因为 它 包 含 了 所 有 的 属性 。 同 样 ， 在 模式 为 tname，title，vyear} 的 关系 中 ， 
MVD: 

name —> title year 

也 是 平凡 的 。 若 分 解 出 的 两 个 关系 不 属于 4NF， 则 还 要 对 它 继续 进行 分 解 。 o 

对 于 BCNF 分 解 ， 每 步 分 解 后 所 得 关系 模式 的 属性 个 数 都 严格 少 于 原始 关系 的 属性 个 数 。 













9 
R 


m 


76 


RIF 


因此 ， 最 后 肯定 能 得 到 不 需 继续 分 解 的 模式 ， 也 就 是 ， 它 们 满足 4NF。 此 外 ， 这 也 说 明了 3.6.5 
节 中 给 出 的 分 解法 对 于 MVD 同 样 适 用 。 即 ， 根 据 MVD A; Ar... An B, Bo... B» 分 解 一 个 关 
系 时 ， 这 个 依赖 就 足以 证 明 从 分 解 后 的 关系 中 重 构 原 始 关系 的 正确 性 。 


3.7.6 范式 间 的 联系 

如 前 所 述 ，4NEF 暗 含 于 BCNE， 同 样 BCNF 
暗含 于 3NF。 图 3-31 给 出 了 满足 这 三 个 范式 的 
关系 模式 (包括 函数 依赖 ) 集合 之 间 的 联系 。 
也 就 是 说 ， 若 含有 特定 依赖 的 关系 满足 4NF， 
则 它 也 满足 BCNF 和 3NF。 而 对 于 满足 BCNF 的 
含有 特定 依赖 的 关系 而 言 ， 它 也 满足 3NF。 

比较 这 些 范式 的 另 一 种 方法 是 比较 分 解 到 
各 范式 的 关系 的 性 质 。 图 3-32 的 表 中 给 出 了 对 
这 几 种 范式 性 质 的 总 结 。 也 就 是 ，BCNEF (A 
此 4NF ) 消除 了 由 FD 带 来 的 元 余 和 其 他 异常 ， 


3NF 关 系 


BCNF 关 系 


图 3-31 4NF 有 暗含 了 BCNF，BCNF 暗 含 了 3NF 


而 只 有 4NF 才 能 消除 由 非 平凡 MVD ( 不 是 FD ) 带 来 的 附加 元 余 。 通 常情 况 下 3NF 就 足以 消除 
这 些 元 余 , 但 是 仍然 存在 有 它 不 能 消除 的 例子 。 总 是 选择 分 解 到 3NF, 是 因为 这 样 做 能 保持 FD， 
邑 在 分 解 后 的 关系 中 仍 存在 FD ( 虽然 在 本 书 中 没有 讨论 相应 的 算法 )。BCNE 不 保证 能 保持 FD。 
虽然 在 典型 的 例子 中 仍然 能 保持 MVD ， 但 是 没有 一 个 范式 能 做 这 种 保证 。 








消除 MVD 宛 余 





性 质 | 3NF | BCNF | 4NF 












保持 FD 




















图 3-32 范式 的 性 质 和 分 解 


3.7.7 习题 


* 习题 3.7.1 假设 关系 R(4，B，C ) 中 存在 MVD A 一 一 B。 若 R 的 当前 实例 中 含有 元 组 
Ca, bi, cı), Ca, bz, c2) 和 (a，b;，c;)， 那么 R 中 必 存 在 其 他 哪些 元 组 ? 

* 习题 3.7.2 假设 有 一 个 记录 了 人 名 、 其 社会 保险 号 和 生日 的 关系 。 对 于 他 们 的 每 个 孩子 也 
记录 了 他 们 的 名 字 、 社 会 保险 号 、 每 人 的 生日 ， 还 记录 了 每 人 拥有 的 汽车 、 车 牌号 和 厂家 。 


下 面 给 出 这 个 关系 的 字段 : 


(n, s, b, cn, cs, cb, as, am) 


其 中 

1. ?是 人 名 ， 而 "是 社会 保险 号 。 
2.b 是 n 的 生日 。 

3. cn 是 n 的 某 个 孩子 的 名 字 。 

4. cs 是 cn 的 社会 保险 号 。 

5. cb 是 cn 的 生日 。 

6. as 是 n 的 某 部 车 的 车 牌号 。 

7.am 是 as 的 厂家 。 





* 


! 


对 这 个 关系 : 
a) 指出 希望 含有 的 函数 依赖 和 多 值 依赖 。 
b) 分 解 到 4NF。 
习题 3.7.3 ”对 于 下 面 的 关系 模式 和 依赖 
* a)R(A, B, C, D), 存在 MVD A 一 一 B 和 4 一 一 C。 
b)R(A, B, C, D), 存在 MVD A—— BAIB 一 一 CD, 
c)R (A, B, C, D), 存在 MVD AB—— C 和 FD BC, 
d)R (A, B, C, D, E), 存在 MVD A 一 一 B 和 A 一 一 C， 以 及 FD A 一 D 和 AB 一 E。 
分 别 回答 下 面 问题 : 
i. 指出 违反 4NF 的 依赖 。 
ii. 把 关系 分 解 为 多 个 属于 4NF 的 关系 。 
习题 3.7.4 在 习题 2.2.5 中 已 对 联系 Birthe 的 不 同 假设 进行 过 讨论 。 对 于 不 同 的 假设 ， 指 
出 在 结果 关系 中 存在 的 MVD ( 不 是 FD )。 
习题 3.7.5 ” 非 正式 地 证 明 为 什么 例 3.33 中 五 个 属性 中 的 任 一 个 属性 都 不 能 由 其 他 四 个 属性 
函数 决定 。 
习题 3.7.6 使 用 MVD 的 定义 ,说 明 为 什么 存在 互补 规则 。 
习题 3.7.7 ”证 明 下 面 给 出 MVD 规 则 : 
a) KAHN] (union rule )。 和 X，7 和 Z 都 是 属性 集合 ， 若 X 一 一 YHX 一 一 Z 成 立 ， 则 XX 一 一 
(YUZ) 成 立 。 
b) 交集 规则 〈intersection rule )。X，7 和 2Z 都 是 属性 集合 ， 若 X 一 一 7 和 X 一 一 Z 成 立 ， 则 XX 
+> (YNZ) 成 立 。 
c) 差异 规则 (difference rule )。X，Y 和 2Z 都 是 属性 集合 ， 若 X 一 一 7 和 X >— ZY, MX 
> (Y- Z) 成 立 。 
d) 平 凡 MVD (trivial MVD )。 若 Y CX (了 是 X 的 子 集 )， 则 在 任 一 个 关系 中 都 存在 X 一 一 7。 
e) 平 凡 MVD 的 另 一 来 源 。 若 XU 7 包含 了 关系 R 的 所 有 属性 ， 则 R 中 存在 X >> Y, 
) 通过 移动 左边 和 右边 末 移 动 共享 属性 集合 (removing attributes shared by left and right 
side ) XY, RIX (Y-X) 成 立 。 
习题 3.7.8 给 出 一 个 反例 ， 说 明 为 什么 下 面 关于 MVD 的 规则 不 正确 。 
* a) 若 4 一 一 BC， 则 A 一 B。 
b) 若 4 一 >B， 则 A 一 B。 
c) 车 4B 一 一 C， 则 4 一 一 C。 


3.8 小 结 


e X ARH (relational model); 关系 是 表示 信息 的 表 。 属性 位 于 每 列 的 上 部 ， 每 个 属性 都 
有 相应 的 域 ， 或 者 数据 类 型 。 行 被 称 为 元 组 ， 每 一 行 都 有 一 个 分 量 与 关系 属性 对 应 。 

"模式 〈schema ); 关系 名 和 该 关系 所 有 属性 的 结合 。 多 个 关系 模式 形成 一 个 数据 库 模 式 。 
一 个 关系 或 多 个 关系 的 特定 数据 叫做 关系 模式 实例 或 数据 库 模 式 的 实例 。 

“把 实体 集 转化 为 关系 : 实体 集 关系 的 属性 与 相应 实体 集 的 属性 相对 应 。 而 弱 实 体 集 E 例 
外 ， 它 的 属性 必须 包含 所 有 有 助 于 识别 E 实 体 集 的 键 属 性 。 

“把 联系 转化 为 关系 : E/R 联 系 关系 的 属性 与 每 个 连接 此 联系 的 实体 集 的 键 属 性 相对 应 。 若 
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一 个 联系 连接 弱 实体 集 ， 则 不 需 为 这 个 联系 生成 关系 。 

。 把 isa 层 次 转化 为 关系 : 一 种 方法 是 拆 分 层次 中 不 同 的 实体 集 ， 为 每 个 实体 集 创建 相应 的 
含有 所 有 必要 属性 的 关系 。 另 一 种 方法 是 为 层次 中 实体 集 的 每 个 可 能 的 子 集 创 建 相 应 的 
关系 ， 每 个 实体 形成 关系 中 的 一 个 元 组 。 关 系 中 的 所 有 元 组 对 应 于 该 实体 所 属 的 实体 集 。 
第 三 种 方法 是 利用 空 值 仅 只 创建 一 个 关系 ， 每 个 实体 对 应 于 关系 中 的 一 个 元 组 ， 若 该 实 
体 没 有 某 个 属性 ， 则 在 关系 相应 的 分 量 处 填 人 空 值 。 

* AAAA (functional dependency ): 若 关系 中 的 两 个 元 组 在 某 些 属性 上 取 值 相同 ， 则 它 
们 在 另 一 些 属性 上 取 值 也 相同 。 

。 关 系 的 键 (key ): 关系 的 超 键 (superkey ) 是 函数 决定 该 关系 中 所 有 属性 的 属性 集合 。 
若 一 个 超 键 不 存在 任何 能 函数 决定 所 有 属性 的 真子 集 ， 则 它 就 是 键 。 

* 函数 依赖 的 推论 : 一 组 规则 ， 这 些 规则 能 推出 ， 在 满足 给 定 FD 集 的 任 一 关系 实例 中 有 另 
一 个 FD X> 4 成 立 。 证 明 存在 FD X 一 4 的 最 简单 方法 是 计算 X 关 于 给 定 FD 的 集合 闭 包 ， 
并 判断 X 闭 包 中 是 否 包 含 4。 

XADM: 一 个 关系 能 无 损 地 被 分 解 为 两 个 关系 ， 只 要 分 解 后 两 个 关系 模式 中 的 相同 属 
性 集 至 少 能 构成 其 中 一 个 模式 的 超 键 。 

“Boyce-Codd 范 式 : 若 关系 中 的 非 平凡 FD 都 指明 某 个 超 键 函 数 决定 其 他 属性 ， 则 认为 此 关 
系 满足 BCNF。 任 何 关系 都 可 以 无 损 地 分 解 为 BCNF 关 系 集 。BCNEF 的 主要 优点 是 它 消 除 
了 由 FD 引起 的 元 余 。 

* 第 三 范式 ， 有 时 分 解 到 BCNF 会 丢失 菜 些 FD。 一 种 比 BCNF 限 制 较 宽 的 范式 为 3NF， 它 允 
WFD X> A (其 中 x 可 以 不 是 超 键 , 而 4 是 键 属性 ) 的 存在 。3NF 不 保证 消除 所 有 FD 引 
起 的 元 余 , 但 实际 上 大 多 数 情况 下 可 以 消除 宛 余 。 

。 多 值 依 赖 (MVD): 关系 中 两 个 属性 集 的 值 用 其 所 有 可 能 的 组 合 方式 出 现 。 

“第 四 范式 : 关系 中 MVD 也 能 引起 元 余 。4NF 同 BCNF 一 样 ， 也 不 允许 存在 非 平凡 MVD 
( 除非 它们 是 BCNF 中 允许 存在 的 FD )。 一 个 关系 有 可 能 无 损 地 分 解 为 4NF 关 系 集 。 


3.9 参考 文献 


经 典 的 关于 关系 模式 的 文章 是 由 Codd 写 的 [4]。 这 篇 文章 介绍 了 函数 依赖 的 思想 和 基本 的 
关系 概念 。 文 中 也 描述 了 第 三 范式 ， 而 Boyee-Codd 范 式 出 现在 Codd 后 来 的 文章 中 。 

多 值 依赖 和 第 四 范式 由 Fagin 在 [7] 中 给 出 了 定义 。 另 外 ， 多 值 依赖 的 思想 也 独立 出 现 于 [6] 
和 [9] 中 。 

Armstrong 是 第 一 个 研究 推出 FD 规则 [1] 的 人 。 本 书 中 给 出 的 关于 FD ( 包括 Armstrong 公 理 ) 
和 MVD 的 规则 来 自 于 [2]。 通 过 计算 属性 集 的 闭 包 来 验证 FD 的 方法 则 是 参考 [3]。 

有 许多 算法 和 /或 者 证 明 并 未 在 本 书 中 给 出 ， 其 中 包括 如 何 推出 MVD， 如 何 把 多 值 依赖 投 
影 到 分 解 后 的 关系 ， 以 及 如 何 无 丢失 FD 地 把 关系 分 解 到 3NF。 这 些 或 其 他 与 依赖 有 关 的 问题 
见 [8]。 
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第 4 章 其 他 数据 模型 


实体 联系 模型 ( E/R 模 型 ) 和 关系 模型 仅 是 当今 数据 库 系统 中 的 两 个 重要 的 模型 。 这 一 章 ， 
将 再 介绍 几 个 越 来 越 重 要 的 其 他 数据 模型 。 

本 章 先 从 讨论 面向 对 象 (Object-Oriented ) 数据 模型 开始 。 数 据 库 系统 面向 对 象 化 的 一 种 
方法 ， 是 扩展 面向 对 象 编程 语言 (如 C++，Java 等 )， 使 其 支持 持久 性 。 通 常 程序 中 的 对 象 在 程 
序 结束 后 将 消失 ， 但 是 ，DBMS 的 基本 要 求 是 ;对象 被 永久 保存 Guanes 一 样 被 用 
户 修改 )。 这 里 先 研究 一 个 “ 纯 ” 面 向 对 象 数据 模型 : 称 做 ODL ( 对 象 定义 语言 )， 它 已 经 被 
ODMG ( 对象 管理 组 织 ) 标准 化 。 

接 下 来 ， 将 讨论 对 象 关系 (Object-Relational ) 模型 。 该 模型 是 SQL-99 《或 叫 SQL:1999、 
SQL3， 是 SQL 的 最 新 标准 ) 的 一 部 分 。 它 扩展 了 第 3 章 中 介绍 的 关系 模型 ， 包 括 了 许多 常用 的 
面向 对 象 概念 。 尽 管 在 具体 实现 上 和 提供 给 用 户 的 用 途 方面 千差万别 ， 但 是 这 个 标准 是 目前 许 
多 主要 数据 库 经 销 商 的 对 象 关 系 DBMS 的 基础 。 第 9 章 中 讨论 了 对 象 关系 模型 SQL-99。 

然后 是 “ 半 结 构 化 ”数据 模型 。 这 个 模型 主要 用 于 处 理 数据 库 中 存在 的 一 些 问题 ， 包 括 如 
何 将 数据 库 与 具有 不 同 模式 的 其 他 数据 源 ， 如 Web 页 ， 连 接 起 来 。 面 向 对 象 或 对 象 关 系 系统 的 
基础 是 坚持 为 每 个 类 或 关系 提供 -- 个 固定 的 模式 , 而 半 结 构 化 模型 采用 了 一 种 灵活 得 多 的 模式 。 
以 电影 对 象 为 例 ， 有 些 对 象 会 列 出 导演 ， 有 些 对 象 则 会 列 出 不 同 版 本 的 片 长 ， 还 有 些 对 象 会 包 
括 评论 等 等 。 

XML (eXtensible Markup Language ) 是 半 结 构 化 数据 模型 最 重要 的 一 种 实现 。 本 质 上 ， 
XML 是 “文档 ”的 一 种 规范 ， 这 种 文档 是 嵌 套 数据 (可 以 包含 其 他 数据 集合 作为 其 元 素 的 数 
i) 的 集合 ， 其 中 每 个 数据 可 以 用 一 个 标记 来 标识 其 角色 。 人 们 认为 ， 在 不 同 的 数据 源 之 间 处 
理 或 传递 数据 的 系统 中 ，XML 数 据 将 成 为 一 个 核心 的 组 成 部 分 。 此 外 ，XML 还 可 以 成 为 在 数 
据 库 中 灵活 地 存储 数据 的 一 种 方法 。 


4.1 面向 对 象 概念 的 复习 


在 介绍 面向 对 象 数据 库 模 型 之 前 ， 先 来 复习 一 下 面向 对 象 的 一 些 主要 概念 。 面 向 对 象 的 纺 
程 方法 已 经 被 广 为 接 受 ， 因 为 它 提供 了 更 好 的 程序 组 织 方式 ， 从 而 提高 了 程序 的 可 靠 性 。 面 向 
对 象 的 编程 语言 从 Smalltalk 开 始 流行 ， 在 开发 出 C++ 并 在 C++ 上 移植 了 许多 原先 用 C 实 现 的 软 
件 之 后 得 到 了 长 足 发 展 。 最 近 的 Java 语 言 ( 提供 了 在 WWW 上 共享 程序 的 一 种 方式 ) 也 是 面向 
对 象 程序 设计 语言 。 

面向 对 象 概念 对 数据 库 系统 很 有 吸引 力 ， 特 别 是 在 数据 库 设 计 以 及 如 何 扩展 关系 数据 库 管 
理 系 统 (DBMS ) 的 新 特性 等 方面 。 这 一 节 ， 将 复习 一 些 面向 对 象 的 基本 概念 。 

1. 一 个 功能 强大 的 类 型 系统 ; 

2. 类 (class) 是 与 范围 (extent ) 或 属于 类 的 对 象 集 相 联系 的 数据 类 型 。 类 有 一 个 基本 的 
特征 : 它 可 以 拥有 方法 (method) ATTAIN ST A BEA EER, 这 个 特性 使 类 
不 同 于 传统 的 数据 类 型 ; 
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3. 对 象 标识 ( object identity )， 每 个 对 象 都 有 一 个 与 其 具体 的 值 无 关 的 ID; 

4. 继承 (inheritance )， 继 承 将 类 层次 化 ， 每 个 子 类 从 父 类 中 继承 各 种 特性 〈 包括 属性 与 方 
法 )。 

4.1.1 类 型 系统 

面向 对 象 编程 语言 为 用 户 提 供 了 丰富 的 类 型 集合 ， 它 预先 定义 了 一 些 原子 类 型 (atomic 
type )， 例 如 整 型 、 实 型 、 布 尔 型 和 字符 串 类 型 。 用 户 可 以 使 用 类 型 构建 器 (type constructor ) 
来 创建 新 类 型 ， 一 般 而 言 ， 类 型 构建 器 允许 用 户 创建 

1. 记录 结构 “ 若 给 定 一 个 类 型 序列 万 、 丈 … T A ROP MAIR FP, fh... f (在 Smalltalk 
中 叫做 实例 变量 )， 用 户 可 以 创建 一 个 包含 n 个 属性 的 记录 类 型 ， 第 ;个 属性 的 类 型 是 TT， 可 以 用 
其 域名 来 引用 。 记 录 类 型 在 C 或 Ct+ 中 被 称 为 “结构 ”"， 下 面 将 常常 用 到 这 个 术语 ; 

2. 集合 类 型 ”给 定 一 个 类 型 T"， 人 们 就 可 以 对 T 使 用 集合 操作 符 (collection operator ) 创建 
新 类 型 ， 不 同 的 编程 语言 使 用 不 同 的 集合 操作 符 ， 但 是 也 有 一 些 是 共有 的 ， 如 数组 、 链 表 和 集 
合 等 等 。 这 样 如 果 7 是 整 型 原子 类 型 ， 就 可 以 创建 集合 类 型 :“ 整 型 数组 ”"、*“ 整 型 链表 ”和 “ 整 . 
型 集合 ”; 

3. 引用 类 型 ”对 类 型 7 的 一 个 引用 是 这 样 一 种 类 型 ， 它 可 以 用 来 指向 该 类 型 的 一 个 特定 的 
值 ， 在 C 或 C++ 中 引用 是 指向 一 个 值 的 指针 (也 就 是 值 的 虚拟 内 存 地 址 )。 

显然 ， 可 以 反复 使 用 记录 结构 和 集合 操作 符 来 构造 更 加 复杂 的 数据 类 型 ， 例 如 ， 一 个 银行 系 
统 可 能 会 定义 一 个 记录 结构 ， 其 中 第 一 个 分 量 为 字符 串 类 型 ， 称 为 customer， 第 二 个 分 量 为 整 
型 的 集合 类 型 ， 称 为 accounts ;这样 的 类 型 就 可 以 适用 于 将 银行 的 顾客 与 其 账户 集 联 结 起 来 。 
4.1.2 类 与 对 象 

一 个 类 由 一 个 类 型 构成 , 同时 可 能 还 有 一 个 或 多 个 函数 或 过 程 ( 两 者 统称 为 方法 , 见 下 文 )， 
其 中 这 些 方 法 可 以 由 类 的 对 象 调用 。 类 的 对 象 可 以 是 该 类 型 的 值 ， 称 为 不 变 对 象 (immutable 
object )， 也 可 以 是 该 类 型 的 变量 ， 称 为 可 变 对 象 ( mutable object), 例如， 有 一 个 C 类 ， 它 的 
类 型 为 整 型 集合 ， 这 样 {2,5,7} 就 是 类 C 的 一 个 不 变 对 象 ， 而 变量 * 可 以 被 声明 为 类 C 的 一 个 可 变 
对 象 ， 然 后 被 赋予 一 个 值 ， 如 {2,5,7}。 

4.1.3 对 象 标识 

对 象 都 有 对 象 标 识 〈object identity ，OID )。 两 个 对 象 不 能 有 相同 的 OID， 并 且 每 个 对 象 只 
有 一 个 标识 。 对 象 标识 在 建 模 时 的 一 些 作用 很 有 意思 。 例 如 ， 对 一 个 实体 而 言 ， 往 往 要 求 有 一 
个 键 ， 这 个 键 一 般 来 自 实体 的 某 些 属性 值 ( 如 果 是 一 个 弱 实 体 集 ， 则 键 来 自 相关 实体 集 的 某 些 
属性 值 )。 但 是 在 类 中 ， 由 于 保证 了 类 的 OID 不 会 重复 ， 这 样 就 可 以 区 分 所 有 属性 值 都 相等 的 
两 个 对 象 。 

4.1.4 方法 

常常 有 一 些 函 数 与 类 相关 ， 称 为 方法 (method )。 任 一 个 类 C 的 方法 都 至 少 有 一 个 参数 ， 
即 类 C 的 一 个 对 象 ， 当 然 可 能 还 有 其 他 各 种 类 型 ( 包括 类 C 在 内 ) 的 参数 。 例 如 ， 包 含 “ 整 型 
集合 ”类 型 的 类 ， 可 能 需要 一 个 方法 来 计算 集合 中 所 有 元 素 的 总 和 ， 可 能 需要 一 个 方法 来 处 理 
与 另 一 个 整 型 集合 的 合并 ， 还 可 能 需要 一 个 返回 布尔 值 的 方法 来 判断 集合 是 否 为 空 。 

在 有 些 情 况 下 ， 类 被 视 为 “抽象 数据 类 型 ”， 也 就 是 说 ， 类 限制 了 对 其 对 象 的 访问 权限 
(只 有 类 中 定义 的 方法 可 以 直接 修改 类 的 对 象 )， 或 者 说 ， 类 实现 了 封装 ( encapsulate )。 这 样 
就 保证 了 对 类 的 对 象 的 修改 不 会 超出 类 的 设计 者 设计 时 所 考虑 到 的 情况 ( 这 样 ， 对 象 就 始终 处 
于 “安全 ”状态 )。 封 装 是 开发 可 靠 软件 的 关键 技术 。 
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4.1.5 类 的 层次 

可 以 将 类 C 定 义 为 类 DD 的 子 类 【subclass )， 这 样 的 话 ， 类 C 将 继承 (inherit ) SDH MAR 
性 ， 包 括 D 的 数据 类 型 以 及 DD 中 定义 的 函数 。 此 外 ，C 还 可 能 包含 额外 的 特性 。 比 如 ， 可 以 为 C 
的 对 象 定义 新 的 方法 ,它们 可 以 是 新 增 的 方法 ， 也 可 以 是 取代 原先 D 中 定义 的 方法 。 类 C 还 可 
以 扩展 原先 D 的 类 型 定义 ， 如 果 DD 中 的 数据 类 型 是 一 个 记录 结构 类 型 ， 那 么 可 以 为 它 增 加 新 的 
属性 ， 这 些 属 性 只 在 C 的 对 象 中 可 见 。 

例 4.1 考虑 一 个 银行 账户 对 象 的 类 。 它 的 数据 类 型 定义 描述 如 下 : 


CLASS Account = {accountNo: integer; 
balance: real; 
owner: REF Customer; 


} 

Account (EF ) 类 的 数据 类 型 是 一 个 拥有 三 个 字段 的 记录 结构 : 一 个 整 型 的 账户 号 字 
段 ， 一 个 实 型 的 余额 (balance) 字段 和 一 个 指向 Customer 类 对 象 的 户主 字段 (假设 类 
Customer 是 银行 数据 库 系统 中 一 个 已 定义 的 类 ， 这 里 不 对 其 类 型 进行 介绍 )。 

人 们 还 可 以 为 这 个 类 定义 一 些 方法 ， 如 : 


deposit(a: Account, m: real) 


该 方法 将 账户 的 余额 (balance ) 增加 m。 

此 外 可 能 还 要 为 Account 类 定义 一 些 子 类 ， 如 一 个 定期 储 著 的 Account 美 ， 该 类 拥有 一 
个 额外 的 字段 duepate ( 到 期 时 间 )， 这 个 字段 定义 了 户主 可 以 取 钱 的 时 间 。 假 设 这 个 新 定义 
的 类 叫做 TimeDeposit， 它 是 Account 类 的 子 类 。 子 类 可 以 有 它 自己 的 方法 ， 如 定义 方法 : 


penalty(a: TimeDeposit) 


这 个 方法 以 一 个 Timepepos it 对 象 为 参数 ， 计 算 过 早 提 款 行为 将 导致 的 金钱 损失 ， 这 个 
函数 将 使 用 到 字段 auepate 的 值 和 系统 的 当前 日 期 。 口 


42 ODL 简 介 


ODL ( 对 象 定义 语言 ) 是 一 种 用 面向 对 象 术语 描述 数据 库 结构 的 标准 化 语言 。 它 是 IDL 
(接口 描述 语言 ) 一 一 CORBA (通用 对 象 请 求 代理 ) 的 一 个 纪 CORBA 是 分 布 
式 面 向 对 象 计 算 的 一 种 标准 。 

4.2.1 面向 对 象 设 计 

在 一 个 面向 对 象 的 设计 中 , 世界 被 描述 成 由 形形色色 的 对 象 构 成 。 对 象 是 某 种 可 见 的 实体 。 
例如 ， 人 可 以 被 看 做 对 象 ， 银 行 账户 也 不 例外 ， 还 有 航班 ， 大 学 的 课程 ， 建 筑 物 等 等 。 每 个 对 
象 都 有 一 个 惟一 的 对 象 标识 ( OID )， 使 之 区 别 于 其 他 对 象 ( 见 4.1.3 节 的 讨论 )。 

为 了 组 织 信息 ， 人 们 往往 要 把 拥有 “相似 特性 ”的 对 象 归 成 一 个 对 象 的 类 。 不 过 ， 在 讲 
ODL 面 向 对 象 设计 时 ， 所 谓 类 的 对 象 拥 有 “相似 的 特性 ”， 有 以 下 两 种 含义 : 

“类 对 象 在 现实 世界 中 表示 的 概念 应 当 相 似 。 如 ， 可 以 把 一 个 银行 的 所 有 客户 归 成 一 类 ， 

而 将 银行 的 所 有 账户 妇 成 另 一 类 ; 若 把 两 者 混 为 一 类 就 失去 了 意义 。 原 因 很 简单 ， 两 者 

基本 上 无 共同 点 可 言 。 并 且 在 银行 业 领域 的 角色 也 完全 不 一 样 。 

“一 个 类 中 的 对 象 的 特性 应 当 相 同 。 用 面向 对 象 语言 编程 时 ， 常 把 对 象 看 做 记录 。 如 图 4-1 

所 示 ， 对 象 有 存放 值 的 字段 ， 这 些 字段 的 类 型 在 不 同 对 象 之 间 应 当 保持 一 致 ， 可 以 同 为 
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整 型 、 字 符 串 型 、 数 组 型 或 对 另 一 个 对 象 的 引用 。 
在 设计 ODL 类 时 ， 要 描述 三 类 特性 : 
1. 属性 〈attribute )， 它 是 与 对 象 相 关 的 值 ， 在 4.2.8 节 将 讨论 ODL 属 性 的 合法 类 型 ; 
2. 联系 〈relationship )， 它 是 当前 对 象 与 其 他 对 象 的 连接 ; 
3. 方 法 《method )， 它 是 可 以 应 用 于 类 的 对 象 的 函数 。 
属性 、 联 系 、 和 方法 都 被 作为 特性 。 


acctNo 


balance 指向 Customer 对 象 
toOwner 
Account 对 象 
图 4-1 一 个 表示 账户 的 对 象 
4.2.2 类 声明 
ODL 中 ， 一 个 最 简单 的 类 声明 包括 : 
1. class; 
2. 类 名 ; 


3. 用 大 括号 包含 的 类 的 特性 列表 ， 这 些 特性 可 以 是 属性 、 联 系 或 者 方法 ， 它 们 可 以 按 任 意 
次 序 出 现 。 
也 就 是 说 ， 最 简单 的 类 声明 形式 如 下 


class <name> { 
<list of properties> 


42.3 ODL 中 的 属性 

最 简单 的 特性 是 属性 (attribute )， 通 过 将 固定 类 型 的 值 与 一 个 对 象 相 联系 ， 属 性 从 一 个 角 
度 上 描述 了 该 对 象 。 例如 每 个 人 类 对 象 ， 都 有 一 个 属性 名 字 ， 其 类 型 为 字符 串 , 值 为 人 的 名 字 ， 
人 的 对 象 可 能 还 有 一 个 属性 出 生日 期 (birthdate ), 它 是 一 个 整 型 的 三 元 组 (一 个 记录 结构 )， 
分 别 代表 对 象 出 生 的 年 、 月 和 日 。 

在 ODL 中 ， 属 性 不 必 为 整 型 、 字 符 串 型 等 简单 类 型 ， 这 一 点 与 B/R 模 型 不 同 。 刚 才 提 到 的 
birthdate 就 是 一 个 例子 。 再 举 一 个 例子 ， 像 电话 号 码 (phone) 这 样 的 属性 ， 可 以 用 一 组 
字符 串 来 表示 ， 或 者 还 可 以 是 更 复杂 的 类 型 ， 在 4.2.8 节 将 总 结 ODL 的 类 型 系统 。 

例 4.2 ”图 4-2 中 是 一 个 电影 类 的 ODL 声 明 ， 它 并 不 完整 ， 以 后 还 会 加 以 丰富 。 第 (1) 行 
声明 了 该 类 的 类 名 为 Movie， 接 下 来 是 四 个 属性 的 声明 ， 它 们 是 所 有 Movie 对 象 所 共有 的 。 


1) class Movie { 
2) attribute string title; 
3) attribute integer year; 


4) attribute integer length; 
5) attribute enum Film {color,blackAndWhite} filmType; 





图 4-2 Movie 类 的 ODL 声 明 


第 一 个 属性 名 为 Fitle (标题 ) 在 第 (2) 行 声 明 ， 类 型 为 string 一 一 长 度 未 定 的 字符 
流 。 假 设 在 Movie 对 象 中 该 属性 的 值 代表 电影 的 名 字 。 后 面 两 个 属性 ， 年 份 (year ) 和 长 度 





ese ts 


(length) 分 别 在 第 (3) (4) 行 声 明 ， 都 为 整 型 ， 分 别 代表 电影 的 出 品 年 份 和 片 长 (以 分 
钟 记 )。 第 (5 ) 行 是 另 一 个 属性 Eilmrype ( 电影 类 型 )， 它 用 来 标识 电影 是 彩色 的 还 是 黑白 
的 。 其 类 型 为 玫 举 型 (enumeration )， 枚 举 类 型 名 为 Film， 榴 举 型 的 属性 值 从 一 个 文字 
(literal) 列表 中 选取 ， 本 例 中 是 color 和 blackAndWhite。 

到 目前 为 止 ， 一 个 Movie 类 的 对 象 可 以 看 做 是 一 个 拥有 四 个 分 量 的 记录 或 元 组 ， 每 个 分 量 
都 对 应 一 个 属性 。 如 ; 


("Gone With the Wind", 1939, 231, color) 
就 是 一 个 Movi ee 对象。 O 


例 4.3 ”在 例 4.2 中 ， 每 个 属性 都 是 原子 类 型 的 ， 本 例 将 给 出 非 原子 类 型 的 属 人 性。 定义 Star 
类 如 下 : 


1) class Star { 
2) attribute string name; 
3) attribute Struct Addr 
{string street, string city} address; 


}; 

第 (2) 行 声明 属性 name 为 字符 串 型 ,第 (3) 行 声 明了 另 一 个 属性 adadqress， 这 个 属性 
的 类 型 是 一 个 记录 结构 ， 属 性 名 为 Addr ， 它 由 两 个 域 构 成 :street 和 city， 都 是 字符 申 型 。 
一 般 而 言 ， 在 ODL 中 ， 用 户 可 以 使 用 关键 字 struct 定 义 一 个 记录 结构 ， 用 大 括号 将 其 域名 以 
及 相应 的 类 型 列表 括 起 来 。 与 枚 举 型 一 样 ， 结 构 类 型 也 要 有 名 字 ， 这 样 其 他 地 方 就 可 以 使 用 此 
类 型 。 口 
4.2.4 ODL 中 的 联系 

尽管 通过 属性 ， 人 们 可 以 知道 许多 关于 对 象 的 信息 ， 有 时 ， 对 象 的 主要 信息 可 能 在 于 它 与 
其 他 对 象 《相同 类 的 或 不 同类 的 ) 的 连接 。 


为 何 要 为 枚 举 型 和 记录 类 型 命名 ? 

图 4-2 的 第 (5 ) 行 中 ,将 枚 举 型 命名 为 Film 似 乎 没有 必要 。 可 是 ， 在 给 它 起 了 名 字 
之 后 ， 人 们 就 可 以 在 Movie 类 的 声明 范围 之 外 引用 此 类 型 。 要 引用 此 类 型 ， 就 必须 提供 
域 的 名 字 (scoped name ) Movie::Film。 例如， 在 声明 camera ( 照相机) AH, T 
以 用 以 下 代码 : 


attribute Movie::Film uses; 
该 行 声 明了 属性 uses， 它 使 用 了 Movie 类 中 同样 的 枚 举 型 ， 它 的 值 为 color 和 
blackAndWhite, 
命名 枚 举 型 (对 于 记录 类 型 也 一 样 ， 它 与 枚 举 型 声明 的 方式 相同 ) 的 另 一 个 原因 是 : 
”命名 了 该 类 型 之 后 ， 人 们 就 可 以 在 任何 特定 类 之 外 的 一 个 “模块 ” 中 声明 类 型 ， 这样 该 
模块 中 的 所 有 类 都 可 以 使 用 被 声明 的 类 型 。 
例 4.4 ”现在 ,假设 要 给 例 4.2 中 的 Movie 类 增加 一 个 属性 ， 一 组 影星 。 更 精确 地 说 ， 是 要 


求 每 个 Movie 对 象 都 与 一 组 Star 对 象 (该 电影 中 的 影星 ) 相连 接 。 表 达 两 个 类 之 间 联 系 的 最 
好 的 方式 就 是 使 用 一 个 联系 。 可 以 用 以 下 代码 行 实现 ; 


relationship Set<Star> stars; 
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该 行 是 在 Movie 类 的 声明 中 ， 可 以 加 在 图 4-2 中 第 (1 ) 到 第 (5) 行 中 任意 一 行 之 后 。 这 
样 就 可 以 说 ， 在 每 个 ovie 类 的 对 象 中 ， 都 有 一 组 对 Star 对 象 的 引用 。 这 组 引用 命名 为 
stars。 前 面 的 关键 字 relationship 表 示 stars 包 含 对 其 他 对 象 的 引用 ， 而 <Star> 前 面 的 
Set 关 键 字 表示 stars 包 含 了 一 组 ( 而 不 是 一 个 ) Star 对 象 的 引用 。 一 般 地 ， 一 组 7 类 型 元 素 

138) 在 ODL 中 的 定义 方式 为 : Set < T >o 口 


425 反 向 联系 

上 面 的 联系 提供 了 一 种 方法 ,使 得 人 们 可 以 从 一 部 给 定 的 电影 中 求 出 在 该 部 影片 中 演出 的 
影星 。 同 样 ， 有 时 也 希望 能 知道 某 个 特定 的 影星 演 过 的 影片 。 要 在 Star 对 象 中 加 入 这 些 信息 ， 
可 以 将 以 下 代码 ; 


relationship Set<Movie> starredIn; 


加 入 star 类 的 声明 中 ( 见 例 4.3 )。 但 是 这 种 方式 忽略 了 Movie 对 象 与 Star 对 象 之 间 联 系 
的 一 个 重要 方面 。 如 果 一 位 影星 S 在 电影 M 的 stars 和 集合 中 ， 那么 理 所 应 当地 ，M 也 应 该 在 $ 的 
starredIn 集 合 中 。 要 表示 这 种 联系 就 要 在 其 声明 中 加 上 关键 字 inverse， 以 及 其 反 向 联系 
的 名 字 。 如 果 反 向 联系 定义 在 其 他 类 中 ( 通常 情况 如 此 )， 则 在 引用 时 ， 就 要 在 联系 名 之 前 加 
上 它 所 在 类 的 名 字 以 及 “::” 符 号 。 

例 4.5 ”要 将 Star 类 的 联系 starredIn 定 义 为 Movie 类 中 stars 的 反 向 联系 ， 修 改 这 些 
类 的 声明 ， 见 图 4-3( 其 中 还 包含 一 个 Studio 类 ， 以 后 将 讨论 到 ), 第 (6 ) 行 代 码 是 Movie 类 
的 联系 stars 的 声明 ， 并 昌 注 明了 其 反 向 联系 为 Star: :starredIn。 由 于 联系 starredIn 
在 另 一 个 类 中 定义 ,联系 名 前 加 了 该 类 名 以 及 “::”。 读 者 可 以 回忆 一 下 ， 当 要 引用 定义 在 其 他 
类 中 的 某 些 事物 时 ( 如 特征 和 类 型 名 ， 等 等 )， 总 要 使 用 符号 “::”。 

类 似 地 ， 联 系 starredIn 在 第 (11 ) 行 声明 ; 其 反 向 联系 则 被 定义 为 Movie 类 的 联系 
stars。 因 为 反 向 联系 必须 成 对 出 现 ， 所 以 如 果 在 Movie 类 中 定义 stars 联 系 时 注 明 其 反 向 联 
系 为 starredIn， 那么 也 就 决定 了 Star 类 中 的 starredIin 联 系 的 反 向 联系 必然 是 


Movie: :starso。 口 


总 的 规则 如 下 : 如 果 类 C 的 联系 R 将 类 C 的 x 对 象 与 类 D 的 yl/、y,、...、y 对 象 联结 起 来 ， 那 么 
R 的 反 向 联系 将 y: 与 x 联系 起 来 ( 可 能 同时 还 与 其 他 对 象 相 联 系 )。 有 时 将 类 C 到 类 DD 的 联系 R 形 
象 地 表示 成 关系 的 元 素 对 的 列表 ( 或 元 组 集 )， 这 种 思想 与 2.1.5 节 讨论 的 、 用 于 描述 E/R 模 型 的 
“联系 集 ” 很 相似 。 其 中 每 对 元 素 由 一 个 类 C 的 x 对 象 和 与 其 相关 的 类 D 的 y 对 象 构 成 。 如 下 表 : 
C | D 


Ti | Yy 
T2 | Y2 


139 这 样 R 反 向 联系 就 是 相反 的 元 素 对 的 集合 ， 如 下 表 : 
DIC 


yi | Tı 
Y2 | T2 


注意 ， 当 类 C 与 类 D 相 同时 ， 以 上 规则 一 样 有 效 。 有 一 些 联系 ， 逻辑 上 将 一 个 类 与 其 自 
身 相 联系 。 例 如 联系 “child of”( 是 … 的 子女 ) 就 是 Persons (A) 类 和 它 自身 之 间 存 在 的 


其 他 数据 还 弄 87 





联系 。 口 


class Movie { 
attribute string title; 
attribute integer year; 
attribute integer length; 
attribute enum Film {color,blackAndWhite} filmType; 
relationship Set<Star> stars 
inverse Star::starredIn; 
relationship Studio ownedBy 
inverse Studio: :owns; 





}; 


class Star { 
attribute string name; 
attribute Struct Addr 
{string street, string city} address; 
relationship Set<Movie> starredIn 
inverse Movie: :stars; 


}; 


12) class Studio { . 

13) attribute string name; 

14) attribute string address; 

15) relationship Set<Movie> owns 
inverse Movie: :ownedBy; 





图 4-3 ODL 的 类 及 它们 之 间 的 联系 


4.2.6 联系 的 多 重 性 

像 E/R 模 型 中 的 二 元 联系 一 样 ，ODL 中 ， 一 对 互 为 反 向 的 联系 也 可 以 被 分 为 : 多 对 多 、 多 
对 一 、 一 对 多 以 及 一 对 一 ， 具 体 是 哪 一 种 ， 可 以 看 联系 的 类 型 声明 。 

1. 着 类 C 与 类 DD 之 间 有 一 个 多 对 多 的 联系 ,那么 类 C 中 相应 联系 的 类 型 应 当 为 Set <D>， 而 
DD 中 相应 联系 的 类 型 则 为 Set< C >°; 

2. 如 果 联 系 是 类 C 到 类 D 的 多 对 一 联系 ， 那 么 在 C 中 相应 联系 的 类 型 是 D， 而 在 D 中 的 相应 
联系 的 类 型 是 set< C >; 

3. 如 果 联 系 是 类 D 到 类 C 的 多 对 一 的 联系 ， 那么 联系 的 类 型 正好 与 2 中 的 相反 ; 

4. 如 果 联系 是 一 对 一 的 ， 那么 类 C 中 相应 联系 的 类 型 为 D， 而 类 DD 中 相应 联系 的 类 型 为 C。 

注意 ， 像 在 E/R 模 型 一 样 ， 这 里 允许 多 对 一 或 一 对 一 联系 包括 以 下 情况 ， 即 对 某 些 对 象 而 
言 联系 中 的 “一 ”， 事 实 上 是 “ 零 "。 例 如 ， 一 个 C 到 的 多 对 一 联系 中 ， 某 些 类 C 对 象 中 的 联系 
值 为 空 (null )， 因 为 D 可 以 与 任意 的 C 对 象 的 集合 相 联 结 ， 当 然 这 个 集合 也 可 以 为 空 。 

例 4.6 ”图 4-3 定 义 了 三 个 类 : Movie、Star 和 Studio。 前 两 个 已 经 在 例 4.2 和 例 4.3 中 介 
绍 过 了 。 另 外 还 讨论 了 联系 对 stars 和 starredIn。 例 子 中 ,联系 对 的 类 型 声明 中 都 使 用 了 
Set， 可 见 这 是 一 个 多 对 多 联系 。 

WA (Studio) 对 象 有 属性 name 和 adaress， 见 第 (13 ) 和 (14) 行 。 注 意 ,这 里 
adqress 类 型 为 字符 串 型 ， 而 不 是 第 (10 ) 行 sStar 类 的 adaress 属 性 所 用 的 结构 类 型 。 在 不 


O 这 里 的 set 可 以 用 其 他 的 “集合 类 型 ”代替 ， 如 链表 、 包 ,这些 将 在 4.2.8 中 讨论 ， 在 讨论 关系 时 只 用 set 
作为 代表 。 





BF 


同 的 类 中 定义 具有 不 同类 型 的 相同 名 字 属 性 是 合法 的 。 

第 (7 ) 行 定义 了 一 个 从 Movie 类 到 Studio 类 的 联系 ownedBy， 由 于 联系 的 类 型 是 
Studio 而 不 是 Set<Studio>， 所 以 ， 每 部 影片 仅 属于 一 个 制 片 三。 该 联系 的 反 向 联系 见 第 
(15) 行 ， 定义 了 Studio 类 到 Movie 类 的 联系 owns。 它 的 的 类 型 为 Set <-Movie>， 这 就 意味 
着 每 个 制 片 厂 拥有 一 个 电影 集合 一 一 可 能 是 0 部 、1 部 ， 或 者 许多 部 。 口 
4.2.7 ODL 中 的 方法 

ODL 类 中 ,第 三 种 特性 是 方法 。 与 其 他 面向 对 象 语言 一 样 ， 方 法 是 一 段 可 执行 代码 ， 可 以 
由 类 的 对 象 调用 。 

在 ODL 中 ， 人 们 可 以 在 声明 中 指定 类 的 方法 的 名 字 及 其 输入 输出 参数 的 类 型 。 这 些 声 明 ， 
WA ( signature )， 就 好 像 C 或 C++ 中 的 函数 声明 (definition) (不 是 函数 的 代码 实现 








这 称 为 函数 的 定义 )。 这 些 方法 的 代码 将 由 宿主 语言 ( host language) 实现 ， 这 不 在 ODL 的 范 
WEA 






为 何 要 提供 签名 ? 

提供 签名 的 意义 在 于 : 当 用 具体 的 编程 语言 实现 设计 的 模型 时 ， 可 以 自动 地 检验 实 
现 是 否 与 设计 模型 相 一 致 。 尽 管 无 法 从 语义 上 检验 操作 的 实现 ， 但 至 少 可 以 检验 输入 与 
输出 参数 的 个 数 以 及 类 型 是 否 正 确 。 


方法 的 声明 与 属性 以 及 联系 一 起 出 现在 类 声明 中 。 与 面向 对 象 编程 语言 一 样 ， 每 个 方法 属 
于 某 个 类 ， 并 且 由 该 类 的 对 象 调用 。 因 此 类 对 象 是 方法 的 隐 含 参数 。 这 种 方式 就 使 得 不 同类 中 
使 用 相同 的 方法 名 成 为 可 能 ， 因 为 调用 方法 的 对 象 决定 了 具体 是 调用 哪 一 个 方法 。 这 种 情况 下 ， 
就 说 方法 被 重 载 (overloaded) 了 。 

方法 声明 的 语法 与 C 语 言 中 的 函数 声明 一 样 ， 但 有 两 点 重要 补充 : 

1. 方法 的 参数 由 in、out 或 inout 确 定 ， 分 别 表示 该 参数 是 输入 参数 、 输 出 参数 或 者 输入 
输出 参数 。 其 中 ， 后 两 种 参数 类 型 可 以 在 方法 中 被 改变 ; 而 in 参数 不 能 。out 与 inout 参 数 是 
通过 引用 传递 ， 而 输入 参数 则 是 通过 值 传递 。 注 意 ， 方 法 还 可 以 有 返回 值 ， 这 是 方法 返回 结果 
的 另 一 种 方式 【除了 把 值 分 配给 out 或 inout 参 数 两 种 方式 之 外 )。 

2. 方法 可 能 会 引起 异常 (exception )， 这 是 与 方法 通信 的 一 种 特殊 情况 ( 与 一 般 的 传 参 、 
值 返 回 方式 相对 而 言 )。 异 常 通常 表示 一 种 不 正常 或 未 预料 到 的 情况 ， 将 由 调用 该 方法 的 某 个 
方法 来 “处 理 ”( 可 能 间接 地 通过 一 系列 的 调用 )。 被 零 除 是 一 种 可 能 导致 异常 的 例子 。 在 ODL 
中 ， 一 个 方法 的 声明 之 后 可 以 加 上 关键 字 rai ses， 再 在 其 后 加 上 由 括号 括 起 来 的 一 个 或 多 个 
该 方法 可 能 引起 的 异常 。 

例 4.7 ”图 4-4 给 出 了 Movie 类 定义 的 更 新 版 本 ， 它 是 在 图 4-3 基 础 上 的 改进 。 下 图 是 带 方法 
声明 的 类 声明 。 

第 〈8 ) 行 声明 了 方法 1engthInHours (以 小 时 计 的 片 长 )， 顾 名 思 义 ， 该 方法 返回 调用 
该 方法 的 电影 对 象 的 片 长 。 其 处 理 办 法 是 将 以 分 钟 为 单位 的 属性 1ength 换 算 成 一 个 以 小 时 为 
单位 的 浮 点 数 。 该 方法 的 声明 中 没有 参数 ， 但 是 不 要 忘记 ， 类 的 方法 始终 有 一 个 隐 含 的 参数 ， 
即 调用 该 方法 的 ovie 对 象 。 只 有 提供 了 这 个 参数 ， 方 法 才 可 能 知道 到 底 要 换算 哪个 电影 对 象 
的 1ength 属 性 。 


8 在 方法 lengtnInHours 的 实际 定义 中 将 使 用 一 个 特殊 的 关键 字 ( 如 selt )， 来 引用 调用 方法 的 对 象 。 但 
在 方法 的 声明 中 不 必 关 心 它 。 
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1) class Movie { 

2) attribute string title; 

3) attribute integer year; 

4) attribute integer length; 

5) attribute enumeration(color,blackAndWhite) filmType; 
6) relationship Set<Star> stars 


inverse Star::starredIn;: 
7) relationship Studio ownedBy 
inverse Studio: :owns ; 
8) float lengthInHours() raises (noLengthFound) ; 
9) void starNames(out Set<String>) ; 
void otherMovies(in Star, out Set<Movie>) 
raises (noSuchStar) ; 





图 4-4 为 Movie 类 增加 方法 签名 


方法 1engthInHours 可 能 会 导致 一 个 叫做 noLengthFound 的 异常 。 假设 当 调 用 该 方法 
的 Movie 对 象 的 Length 值 无 意义 ( 比如， 是 一 个 负数 ) 或 未 定义 时 ， 会 引起 这 个 异常 。 

第 (9) 行 可 以 看 到 另 一 个 方法 签名 ， 方 法 名 为 starNames。 这 个 方法 没有 返回 值 ， 只 有 
一 个 输出 参数 ， 其 类 型 为 一 个 字符 串 集合 。 假 设 输出 参数 的 值 被 方法 starNames 设 定 为 对 应 
电影 对 象 的 影星 的 名 字 集 。 当 然 ， 也 不 保证 该 方法 一 定 是 用 来 执行 这 个 操作 的 。 

最 后 在 第 〈10 ) 行 定义 了 otherMovies 方 法 。 这 个 方法 有 一 个 输入 参数 。 该 方法 的 一 个 
可 能 的 操作 如 下 : 假设 该 方法 认为 输入 参数 代表 一 位 参与 该 电影 的 影星 ( 如 果 不 是 ， 那 么 将 导 
致 一 个 hosuchstar 的 异常 )。 如 果 该 影星 出 演 了 该 电影 ， 那 么 输出 参数 (类 型 为 电影 集合 ) 
将 被 赋值 为 该 影星 演 过 的 所 有 影片 的 集合 。 oO 


4.2.8 ODL 中 的 类 型 

ODL 为 数据 库 设计 者 提供 了 一 个 类 似 于 C 或 其 他 传统 编程 语言 的 类 型 系统 。 一 个 类 型 系统 
通过 一 些 本 身 提 供 的 基本 类 型 以 及 一 些 递归 的 规则 ( 由 这 些 规则 可 以 构造 出 很 复杂 的 类 型 ) 构 
建 起 来 。ODL 类 型 系统 的 基本 类 型 有 : 

L 原子 类 型 。 含 有 整 型 、 浮 点 型 、 字 符 型 、 字 符 串 型 、 布 尔 型 和 枚 举 型 ( 是 一 张 文 字 列表 ， 
其 中 每 个 文字 被 赋予 一 个 抽象 的 值 )。 图 4-3 的 第 (5) 行 就 是 一 个 枚 举 型 的 例子 ， 其 文字 包括 
color#lblackAndWhite, 

2. 类 名 。 如 Movie、Star 等 。 此 类 型 实际 上 是 一 个 包含 类 的 所 有 属性 和 联系 的 结构 。 

可 以 使 用 下 列 类 型 构建 器 ( type constructor ) 将 基本 类 型 组 合成 结构 化 的 类 型 ， 

1. 集合 (set )。 设 7 为 任意 类 型 ， 则 Set<T> 表 示 的 类 型 是 类 型 为 7 的 元 素 的 一 个 有 限 集合 ， 
Set 类 型 构建 器 的 例子 见 图 4-3 的 第 (6), (11) 以 及 (15) 行 。 

2. 包 ( bag )。 设 7 为 任意 类 型 ， 则 Bag<T> 表 示 类 型 为 7 的 元 素 的 一 个 有 限 包 ， 或 有 限 多 集 
(multiset)， 它 允许 相同 的 元 素 在 集合 中 出 现 多 次 。 例 如 ，{1, 2, 1} 是 一 个 多 集 ， 但 不 是 一 个 集 
合 ， 因 为 1 在 其 中 出 现 了 不 止 一 次 。 

3. 链表 【list )。 设 7 为 任意 类 型 ， 则 List<T> 表 示 一 个 类 型 为 7 的 元 素 的 有 限 长 链表 ( 链表 
中 元 素 个 数 可 以 为 0 )。 一 个 特殊 的 例子 : 类 型 string 是 List<char> 的 简写 形式 。 

4. 数组 (array )。 设 7 为 任意 类 型 ，i 是 一 个 整数 ， 则 Array< T, :i> 表示 的 类 型 是 长 度 为 
i 的 类 型 为 7 的 元 素 的 数组 。 如 Array<char，10> 表 示 一 个 长 度 为 10 的 字符 捉 。 

5. 字典 ( dictionary )。 设 T，5 为 任意 类 型 ， 则 Dictionary< T, S > 表示 的 是 7Z，5 元 素 


143 


wa 


90 #4ž 


对 的 有 限 集 合 。 其 中 每 对 元 素 由 一 个 键 类 型 (key type) 7 的 值 和 一 个 值 域 类 型 (range type) 5 
的 值 构成 。 字 典 中 不 能 存在 两 对 键 类 型 值 一 样 的 元 素 对 。 字 典 一 般 都 假设 是 用 很 高 效 的 方式 实 
现 了 从 一 个 给 定 的 键 类 型 值 :， 找 到 与 之 对 应 的 值 域 类 型 值 。 

6. 结构 (structure), ÆT, Tr, ..., Tie, Fi, Fo, .., FSH BERS, BA: 

Struct N {T Fi, To Fo,..., Tr En} 

表示 一 个 名 为 N 的 结构 类 型 ， 它 包含 4 个 域 ， 其 第 ;个 域名 为 F;， 类 型 为 T。 例 如 图 4-3 的 第 


(10) 行 定 义 了 一 个 名 为 Adaar 的 结构 类 型 ， 它 有 两 个 域 ， 均 为 string 类 型 ， 名 字 分 别 是 
Street 和 cityo。 


合 ， 包 和 链表 的 区 别 
集合 是 无 序 的 ， 每 个 元 素 至 多 出 现 一 次 。 包 也 是 无 序 的 ， 但 它 允 许 元 素 出 现 多 次 。 


而 链表 是 有 序 的 ， 它 也 允许 一 个 元 素 出 现 多 次 。 所 以 {1, 2, 1}，{2, 1, 1} 是 同样 的 包 ， 但 
(1,2,1), (2,1,1) 是 不 同 的 链表 。 





前 五 种 类 型 ; 集合 、 包 、 链 表 、 数 组 和 字典 统称 为 集合 类 型 (collection type )。 至 于 哪些 
类 型 可 以 用 于 声明 属性 ， 哪 些 可 以 用 于 声明 联系 ， 有 不 同 的 规则 : 
“联系 的 类 型 要 么 是 一 个 类 要 么 是 应 用 于 一 个 类 的 集合 类 型 构建 器 (单独 使 用 一 种 集合 类 
型 构建 器 )。 
“属性 的 类 型 先 由 原子 类 型 构造 。 也 可 以 使 用 类 ， 但 一 般 而 言 ， 这 些 类 与 “结构 ”差不多 ， 
如 图 4-3 中 的 Radar 结构。 人 们 一 般 在 联系 中 使 用 类 ， 因 为 联系 总 是 双向 的 ， 这 样 就 简化 
了 数据 库 中 的 查询 。 而 对 属性 而 言 ， 只 能 通过 对 象 找 到 其 属性 ， 而 无 法 反 过 来 通过 属性 
找到 其 所 属 对 象 。 进 行 原子 类 型 或 类 构造 后 ， 可 以 没有 次 数 限 制 地 重复 使 用 结构 和 集合 
类 型 构建 器 。 
例 4.8 属性 可 能 取 的 一 些 类 型 是 : 
l. integer. 
2. Struct N {string fieldi, integer field2}. 
3. List<real>. 
4. Array<Struct N {string fieldi, integer field2}, 10>. 
例子 中 ，( 1 ) 是 原子 类 型 ，( 2 ) 是 结构 类 型 ，( 3 ) 是 原子 类 型 的 集合 类 型 ，( 4 ) 是 一 个 由 
原子 类 型 构成 的 结构 的 集合 类 型 。 
现在 假设 Movie 和 star 是 可 用 的 基本 类 型 的 类 和 名， 然后 可 以 创建 诸如 Movie、 
Bag<Star> 等 等 的 联系 类 型 。 可 是 ， 如 下 是 一 些 非 法 的 联系 类 型 ; 
l. Struct N{ Movie fieldl, Star field2 }, 联系 不 能 使 用 结构 类 型 ; 
2. Set<Integer>。 联 系 不 能 使 用 原子 类 型 ; 
3. Set<Array<Star，10>>。 联 系 类 型 中 不 能 含有 多 种 集合 类 型 。 


4.2.9 习题 
* 习题 4.2.1 习题 2.1.1 是 一 个 银行 数据 库 系统 的 非 正式 描述 ， 现 在 将 它 用 ODL 描述。 
习题 4.2.2 用 习题 2.1.2 中 列举 的 方式 修改 习题 4.2.1 中 的 设计 ， 说 明 你 做 的 修改 ， 不 必 重 新 
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设计 。 
习题 4.2.3 在 ODL 中 实现 习题 2.1.3 中 的 球 队 -队员 -球迷 数据 库 系 统 。 为 何 原先 习题 中 很 
复杂 的 球 队 颜 色 集 问 题 ， 在 ODL 中 却 显得 很 简单 ? 
! 习题 4.2.4 ”假设 要 保存 一 本 家 谱 。 人 们 将 使 用 一 个 Person 类 ， 对 应 每 个 Person 对 象 ， 
要 记录 其 名 字 ( 这 是 Per son 类 的 一 个 属性 ) 以 及 以 下 联系 : mother、father 和 
children。 给 出 Person 类 的 一 个 ODL 设 计 。 记 住 ， 要 指明 mother、father 和 
children 联 系 的 反 向 联系 (是 从 Person 类 到 Person 类 的 联系 )。mother 联 系 的 反 向 
联系 是 否 就 是 children 联 系 ? 请 给 出 你 的 回答 以 及 理由 ， 将 每 个 联系 连同 其 反 向 联系 一 
道 描述 成 一 个 联系 对 集合 。 
习题 4.2.5 ”为 习题 4.2.4 中 的 设计 增加 一 个 属性 education， 这 个 属性 用 来 保存 各 个 
Person 对 象 所 获得 的 学 位 的 集合 ， 一 个 学 位 信息 包括 : 学 位 名 、 所 属 学 校 以 及 获得 日 期 。 
学 位 的 集合 类 型 可 以 是 Set、Bag、List 或 Array。 解释 这 四 种 选择 可 能 导致 的 设计 结果 ， 从 
保存 信息 的 角度 考虑 它们 各 自 应 如 何 取 舍 ? 合 去 的 信息 在 实际 中 是 否 很 重要 ? 
习题 4.2.6 ”图 4-5 是 用 ODL 定 义 的 Ship 类 和 TG (任务 组 ， 由 一 组 Ship 构 成 ) 类 ， 要 求 对 
其 作 些 修改 〈 可 以 将 要 修改 的 行 标 出 ， 然 后 给 出 修改 后 的 行 ， 或 者 在 原先 的 基础 上 增加 一 
些 新 行 ); 
a) 属性 commander (指挥 官 ) 改 为 由 一 对 字符 串 类 型 组 成 的 结构 ， 前 者 是 其 级 别 ， 
后 者 是 其 名 字 ; 
b) 一 个 ship 对象 可 以 出 现在 多 个 任务 组 中 ; 
c) RAS (sister ship) 是 指 设计 方案 相同 的 不 同 船只， 为 每 稻 船 增加 姊妹 船 的 集合 
(不 包括 自身 )， 假 设 姊妹 船 都 是 Ship 对 象 。 


* 


1) class Ship { 
attribute string name; 
attribute integer yearLaunched; 
relationship TG assignedTo inverse TG: :unitsOf; 


}; 


class TG { 
attribute real number; 
attribute string commander; 
relationship Set<Ship> units0f 
inverse Ship: :assignedTo; 





图 4-5 船 与 任务 组 的 一 个 ODL 描 述 


*! 习题 4.2.7 ”在 什么 情况 下 一 个 联系 是 自 反 的 ? 提示: 将 联系 看 成 是 对 象 对 的 集合 〈 就 像 
4.2.5 节 讨论 的 那样 )。 


4.3 ODL 中 的 其 他 概念 


要 在 ODL 中 描述 所 有 能 在 E/R 模 型 或 关系 模型 中 描述 的 内 容 的 话 ， 还 需要 了 解 ODL 中 的 一 
些 其 他 特性 。 这 一 节 将 讨论 : 

1. 多 路 联系 的 表示 。ODL 中 所 有 的 联系 都 是 二 元 的 ， 因 此 ， 必 须 进一步 讨论 三 路 及 多 路 联 
系 的 ODL 表 示 ， 而 这 些 在 E/R 图 和 关系 中 可 以 很 简单 地 将 它们 表示 出 来 。 

2. 子 类 和 继承 。 


i A A 


3. 键 。 在 ODL 中 这 是 可 选项 。 

4. 范围 (extent )， 一 个 给 定数 据 库 中 类 的 对 象 集合 。 这 是 ODL 中 等 价 于 实体 集 或 关系 的 概 
念 。 不 要 将 其 与 类 本 身 混 淆 ， 类 是 一 种 模式 。 
4.3.1 ODL 中 的 多 路 联系 

ODL 仅 仅 支 持 二 元 联系 。 有 一 个 技巧 (在 2.1.7 节 介绍 )， 可 以 将 一 个 多 路 联系 转化 成 几 个 
二 元 的 多 对 一 联系 。 假 设 在 类 (或 实体 ) 集合 Ci1，C,，...，C, 之 间 有 一 个 多 元 联系 R， 可 以 将 R 
替换 为 一 个 类 C 和 nm 个 多 对 一 的 二 元 联系 (从 类 C 到 类 Ci )。 类 C 的 每 个 对 象 可 以 被 看 做 R 联 系 集 
中 的 一 个 元 组 :， 而 1 对 象 通 过 n 个 多 对 一 的 联系 与 类 C, 相 联系 。 

例 4.9 ”考虑 如 何在 ODL 中 表示 三 元 联系 contracts (合同 )， 其 BR 图 在 图 2-7 中 给 出 。 这 里 
先 定义 类 Movie、Star 和 studio,， 这 三 个 类 由 图 4-3 中 的 Contracts 联 系 。 

必须 创建 类 Contract 与 这 个 三 路 联系 Contracts 相 对 应 。 则 三 个 多 对 一 的 联系 (从 
Contract 类 到 其 他 三 个 类 ) 分 别 为 LheMovie、theStar 和 theStudio， 见 图 4-6: 


1) class Contract { 

2) attribute integer salary; 

3) relationship Movie theMovie 
inverse ... ; 


4) relationship Star theStar 
inverse ... ; 

5) relationship Studio theStudio 
inverse ... ; 





图 4-6 用 类 contract 描 述 三 路 联系 Contracts 


Contract 类 有 一 个 属性 : 工资 ， 因 为 它 仅 由 合同 、 而 不 是 合同 三 方 中 的 任 一 方 决 定 。 回 
忆 一 下 ， 在 图 2-7 中 曾 类 似 地 将 属性 salary 放 在 联系 Contracts 中 而 不 是 任何 一 个 与 合同 相关 的 实 
体 集中 。contract 对 象 的 其 余 特 性 就 是 刚才 提 到 的 三 个 联系 。 

注意 , 至 此 尚未 命名 上 述 联 系 的 反 向 联系 。 这 先 要 修改 Movie、 Star 和 Studio 类 的 声明 ， 
增加 与 Contract 类 中 的 联系 互 为 相反 的 联系 。 例 如 theMovie 的 反 向 联系 可 以 叫做 
contractsFor， 这样 图 4-6 的 第 (3) 行 可 以 换 作 : 

3) relationship Movie theMovie 


inverse Movie::contractsFor; 


并 且 在 Movie 的 声明 中 增加 : 


relationship Set<Contract> contractsFor 
inverse Contract: : theMovie; 


注意 ，Movie 类 中 的 联系 contractsFor 的 类 型 是 Set<Contract>， 这 是 因为 每 部 影 
片 需要 多 份 合同 。 每 份 合同 本 质 上 是 一 个 由 一 部 电影 、 一 位 影星 以 及 一 个 制 片 三 构成 的 三 元 组 ， 
另外 再 加 上 制 片 厂 支付 给 影星 的 工资 这 个 属性 。 O 


4.3.2 ” ODL 中 的 子 类 

回忆 一 下 ， 在 2.1.11 节 E/R 模 型 中 讨论 过 子 类 。ODL 中 同样 允许 将 一 个 类 C 定 义 为 另 一 个 类 
D 的 子 类 。 只 要 在 类 C 的 声明 之 后 ， 加 上 关键 字 extends ， 再 加 上 类 名 D 即 可 。 

例 4.10” 例 2.10 中 将 卡通 片 类 定义 为 电影 类 的 子 类 ， 该 类 与 父 类 相 比 有 一 个 额外 的 特性 : 
一 个 与 一 组 配音 影星 之 间 构 成 的 联系 ， 可 以 用 ODL 将 卡通 片 类 声明 如 下 : 
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class Cartoon extends Movie { 
relationship Set<Star> voices; 
F; 
这 里 没有 给 出 联系 voices 的 反 向 联系 ,但 实际 上 必须 给 出 。 
于 类 继承 父 类 的 所 有 特性 ， 所 以 每 个 卡通 片 对 象 都 从 Movie 类 继承 title、year、 
length 和 filmType (回忆 图 4-3 ) 以 及 联系 stars 和 和 ownedBy。 
同样 ， 在 本 例 中 ， 再 定义 一 个 凶杀 片 ( murder mystery) 类 ， 该 类 有 属性 weapon: 


class MurderMystery extends Movie { 
attribute string weapon; 


这 是 一 个 合法 的 子 类 定义 ，Movie 类 的 所 有 特性 都 被 该 类 继承 。 口 
4.3.3 ODL 中 的 多 继承 


有 时 候 ， 在 将 像 《 免 子 罗 杰 》 这 样 的 影片 归 类 时 ， 人 们 可 能 需要 另外 一 个 新 的 类 ， 它 同时 
是 两 个 或 者 更 多 类 的 子 类 。 在 E/R 模 型 中 ， 可 以 用 


三 个 实体 集 Movies 、Cartoons 和 MurderMysteries 的 K 

结合 ( 这 三 个 实体 集 由 一 个 “isa” 层 次 连接 起 来 ) 一 人 

来 表示 《兔子 罗 杰 》 而 对 面向 对 象 系统 而 言 ， 这 FER ARH 
是 行 不 通 的 ， 该 系统 的 一 条 基本 的 原则 就 是 一 个 对 

象 属于 并 且 仅 仅 属于 一 个 类 ， 因 而 ， 要 描述 一 部 既 卡通 四 条 片 

是 卡通 片 ， 又 是 凶杀 片 的 电影 ， 就 还 要 定义 一 个 


新 类 。 图 4-7 多 继承 的 图 示 


类 卡通 凶杀 片 (CartoonMurderMystery ) 必须 同时 继承 cartoon 类 和 Murder 
Mystery 类 ， 如 图 4-7 所 示 。 也 就 是 说 ， 一 个 cartoonMurderMystery 类 的 对 象 拥有 Movie 
类 对 象 的 所 有 特性 ， 此 外 ， 还 拥有 联系 voices 和 属性 weapon。 

ODL 中 ， 可 以 在 extends 关 键 字 之 后 加 上 多 个 类 名 ， 类 名 之 间 用 “:” 分 开 * ， 因 而 新 类 
的 定义 如 下 :; 


class CartoonMurderMystery 
extends MurderMystery : Cartoon; 


一 个 类 C 继 承 多 个 父 类 时 ， 可 能 导致 冲突 。C 的 两 个 或 更 多 的 父 类 可 能 有 园 名 但 不 同类 型 
的 特性 。 例 子 中 cartoonMurderMystery 类 没有 这 个 问题 ， 因 为 父 类 cartoon 和 
MurderMystery 同 名 的 特性 是 Movie 类 中 的 特性 ， 它 们 是 一 致 的 。 但 在 下 面 的 例子 中 会 导致 
这 种 问题 。 

例 4.11 ”假设 有 两 个 Movie 类 的 子 类 ， 分 别 为 浪漫 剧 (Romance) 类 和 法 庭 剧 
(Courtroom) 类 ， 另 外 假设 这 两 个 子 类 都 有 一 个 名 为 ending 的 属性 。 在 Romance 类 中 ， 属 
性 snaing 是 一 个 枚 举 型 thappy， sad} ， 而 Courtroonm 类 中 属性 snaing 是 另 一 个 枚 举 型 
{guilty, notGuilty}。 如 果 另 外 再 创建 一 个 类 courtroom-Romance， 它 有 两 个 父 类 
Courtroom 和 Romance， 那么 类 Courtroom-Romance 的 属性 ending 的 类 型 就 是 不 明确 
的 。 口 


技术 实现 上 ,第 二 个 以 及 后 续 的 名 字 必 须 代表 “接口 "， 而 不 是 类 。 大 致 说 来 ，ODL 中 的 接口 就 是 一 个 没 
有 相关 对 象 集 (或 称 为 范围 ) 的 类 声明 。 在 4.3.4 节 中 还 将 进行 进一步 讨论 。 
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OPDL 标 准 并 未 规定 如 何 去 消 除 这 种 冲突 ， 一 些 可 能 的 解决 方式 有 : 

1. 不 允许 多 继承 ， 这 种 限制 方式 过 于 严格 ; 

2. 在 子 类 中 指明 有 效 的 特性 ， 如 例 4.11 中 对 于 一 部 Courtroom-Romance 类 型 的 电影 ， 人 
们 更 感 兴趣 的 可 能 是 其 结局 是 喜剧 还 是 悲剧 ， 而 不 是 法 庭 的 判决 到 底 是 有 罪 还 是 无 罪 ， 这 样 就 
可 以 指定 类 courtroom-Romance 从 父 类 Romance (而 不 是 从 父 类 courtroom ) 继承 
ending Bt. 

3. 对 与 父 类 中 重 名 的 属性 ， 在 子 类 中 将 其 重 命名 。 如 例 4.11， 如 果 Courtroom-Romance 
从 父 类 Romance 继 承 ending 属 性 ， 那 么 可 以 指定 courtroom 还 有 另 一 个 属性 verdict, € 
是 子 类 从 Courtroom 类 继承 的 属性 ending 重 命名 而 得 。 
4.3.4 范围 

当 ODL 中 类 是 已 定义 的 数据 库 系 统 的 一 部 分 时 ， 需 要 将 类 的 定义 与 其 对 象 集合 区 分 开 。 这 
种 区 别 类 似 于 一 个 关系 模式 与 一 个 关系 实例 之 间 的 区 别 ( 尽管 在 不 同 的 上 下 文 环境 中 ， 两 者 都 
可 以 用 关系 名 来 指 代 )。 另外 在 E/R 模 型 中 也 要 区 分 实体 的 定义 与 该 实体 当前 存在 的 实体 集合 。 

ODL 中 ， 这 种 区 别 是 通过 赋予 类 以 及 其 范围 (extent ) 不 同 的 名 字 得 以 实现 。 因 此 类 名 代 
表 类 的 设计 模式 ， 而 范围 是 该 类 当前 存在 的 实体 集合 。 类 的 范围 的 命名 方式 是 用 小 括号 将 关键 
字 extenc 以 及 紧 跟 的 范围 名 括 起 来 ， 加 在 声明 的 类 名 之 后 。 

例 4.12 ”一 般 地 ， 一 个 很 有 效 的 命名 习惯 是 将 类 命名 为 一 个 单数 名 词 ， 而 将 对 应 的 范围 命 
名 为 名 词 的 复数 形式 。 根 据 这 种 习惯 ， 可 以 将 Movie 类 的 范围 命名 为 Movies。 为 了 声明 范围 
的 名 字 ， 类 Movie 的 声明 代码 如 下 : 









接 p 
ODL V (interface) 定义 的 支持 ， 接 口 定义 实质 上 是 没有 定义 相关 范围 ( 因 
而 也 没有 相关 对 象 集合 ) 的 类 定义 。4.3.3 节 中 首次 提 到 接口 ， 指 出 它们 可 以 支持 一 对 多 
继承 。 当 几 个 类 有 不 同 的 范围 、 但 有 相同 的 特性 时 ， 接 口 就 有 用 武之 地 。 就 像 几 个 关系 
拥有 相同 的 设计 模式 ， 但 元 组 集 不 同 的 情况 一 样 。 
定义 一 个 接口 1 之 后 ， 就 可 以 定义 机 构 继 承 1 特 性 的 类 ， 它们 各 自 拥 有 不 同 的 范围 ， 
这 样 人 们 就 可 以 在 数据 库 中 保存 几 个 有 相同 类 型 但 属于 不 同类 的 对 象 集合 。 








class Movie (extent Movies) { 
attribute string title; 


以 后 在 学 习 查 询 ODL 数 据 的 OQL 语 言 时 就 会 看 到 ; 当 要 查找 现存 于 数据 库 中 的 电影 时 ， 系 
统 处 理 的 是 Movie 类 的 范围 而 不 是 类 本 身 。 O 


4.3.5 ODL 中 键 声明 

ODL 与 到 目前 为 止 学 习 过 的 模式 的 差别 在 于 ， 键 的 声明 和 使 用 是 可 选 的 。 也 就 是 说 ， 在 
E/R 模 型 中 ， 实 体 集合 需要 用 键 来 区 分 各 个 元 素 。 在 关系 模型 中 ( 关系 都 是 集合 )， 所 有 属性 一 
起 共同 组 成 一 个 键 (除非 某 个 适当 的 属性 子 集 可 以 担当 键 )， 无 论 是 哪 一 种 方式 ， 对 于 每 个 关 
系 而 言 都 至 少 需要 一 个 键 。 

但 是 ， 对 象 有 一 个 独特 的 对 象 标识 〈 4.1.3 节 讨论 过 )， 所 以 ODL 中 ， 声 明 一 个 键 ( 或 键 集 
合 ) 是 可 选项 。 对 于 一 个 类 而 言 ， 可 以 有 所 有 特性 都 相等 的 多 个 对 象 ， 即 便 如 此 ， 仍 然 可 以 通 
过 其 内 部 对 象 标识 来 区 分 它们 。 
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ODL 中 ， 可 以 使 用 保留 字 key 或 keys (都 一 样 )， 后 面 跟着 一 个 属性 或 一 组 属性 来 定义 对 
象 的 键 。 如 果 一 个 键 中 包含 多 个 属性 ， 那 么 必须 将 属性 列表 用 括号 括 起 来 。 键 声明 紧 跟 在 
extent WZ Ja. 

例 4.13 为 类 Movie 声 明 一 个 由 两 个 属性 title 和 year 构 成 的 键 : 

class Movie 

(extent Movies key (title, year)) 


{ 
attribute string title; 


也 可 以 用 keys 代 蔡 key， 即 便 键 只 由 一 个 属性 构成 。 
如 果 类 star 的 键 是 名 字 name， 那 么 类 似 地 声明 如 下 ， 


class Star 
(extent Stars key name) 
{ 


attribute string name; 


J 


可 能 有 多 个 属性 集 构成 多 个 键 的 情形 。 这 样 的 话 ， 可 以 将 这 些 属 性 集 加 在 关键 字 key 
(s) 后 面 ， 并 且 用 逗号 分 开 。 一 般 地 ， 一 个 由 多 个 属性 构成 的 键 在 声明 中 必须 将 这 些 属 性 用 
括号 括 起 来 ， 这 样 就 可 以 区 分 声明 的 是 由 多 种 属性 集 构成 的 多 个 键 ， 还 是 一 个 由 多 个 属性 构 
成 的 键 。 

例 4.14 ”作为 多 个 属性 集 构成 多 个 键 的 例子 ， 考 虑 类 Employee。 这 里 并 不 将 该 类 的 全 部 
信息 都 罗列 出 来 ， 仅 仅 考虑 其 属性 工 号 (empID ) 和 社会 保险 号 ( ssNo )， 它 们 中 任意 一 个 都 
可 以 被 声明 为 键 : 


class Employee 
(extent Employees key empID, ssNo) 


因为 属性 表 没 有 用 括号 括 起 来 ，ODL 认 为 上 述 声明 是 把 smpTD 和 ssNo 都 声明 为 键 。 而 假 
如 为 属性 表 加 上 括号 : ( empID， ssNo )， 那 么 ODL 认 为 ， 这 两 个 属性 共同 构成 一 个 键 。 以 下 
代码 ， 


class Employee 
(extent Employees key (empID, ssNo)) 


就 意味 着 ,任意 两 个 员工 的 empID 和 ssNo 的 组 合 都 必须 独一无二 ， 不 过 empID 或 ssNo 有 
可 能 相等 。 口 


ODL 标 准 还 允许 用 属性 以 外 的 特性 来 构成 键 。 将 一 个 方法 或 者 联系 声明 为 键 ( 或 者 键 的 
一 部 分 ) 原则 上 不 会 造成 什么 问题 ， 因 为 键 是 DBMS 可 以 使 用 ( 也 可 不 用 ) 的 一 种 辅助 性 的 
声明 。 例 如 ， 将 一 个 方法 声明 为 键 ， 这 就 意味 着 对 于 类 中 不 同 的 对 象 ， 该 方法 的 返回 值 不 会 

| 相同 。 
如 果 人 允许 在 键 声 明 中 出 现 多 对 一 联系 ， 那 么 这 就 和 BR 模型 中 的 弱 实 体 集合 有 相同 的 效果 。 
假设 对 象 0; 和 对 象 O, 处 于 一 个 多 对 一 的 联系 中 ， 其 中 0: 位 于 “多 ”的 那 一 边 ，O 位 于 “一 ” 那 
一 边 ， 那 么 可 以 将 对 象 O, 声 明 为 0; 中 的 键 (的 一 部 分 )， 对 于 一 个 类 似 于 0: 的 对 象 的 集合 而 言 
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O01 是 独一无二 的 。 但是， 应 当 记 住 ， 类 不 必要 有 键 ， 这 样 也 就 不 必 去 用 特别 的 办 法 来 处 理 那 些 
铅 乏 构成 键 的 属性 的 类 ， 就 好 像 在 处 理 弱 实体 集合 时 所 做 一 样 。 

例 4.15 ” 先 复 习 一 下 图 2-20 中 弱 实 体 集 的 例子 Crews。 假 设 摄制 组 是 由 他 们 的 成 员 号 以 及 
他 们 所 在 的 制 片 厂 来 标识 。 虽 然 两 个 不 同 的 制 片 厂 可 以 有 相同 的 摄制 组 编号 ， 但 是 可 以 如 图 4- 
8 所 示 那 样 对 Crew 类 定义 。 注 意 ， 这 里 需要 修改 类 studio 的 声明 ， 让 它 包含 联系 crewsof， 
该 联系 是 Crew 类 中 的 partof 联 系 的 反 向 联系 。 这 里 没有 给 出 其 修改 内 容 。 





class Crew 
(extent Crews key (number, part0f)) 


{ 
attribute integer number; 
relationship Studio part0f 
inverse Studio: :crewsOf ; 





图 4-8 联系 crews 的 ODL 声 明 


这 里 的 键 声明 意味 着 不 存在 两 个 摄制 组 有 相同 的 摄制 组 编号 ， 又 在 同一 个 制 片 厂 工 作 。 请 
注意 ， 这 个 声明 与 图 2-20 中 的 E/R 图 很 相似 ， 该 图 中 ， 一 个 摄制 组 实体 由 一 个 编号 与 相关 制 片 
154| 厂 的 名 字 决 定 。 i oO 


43.6 习题 

* 习题 4.3.1 给 习题 4.2.1 中 的 ODL 设 计 增 加 范围 和 键 ; 

习题 4.3.2 给 习题 4.2.3 中 的 ODL 设 计 增 加 范围 和 键 ; 

习题 4.3.3 假设 要 修改 习题 4.2.4 中 的 ODL 声 明 ， 原 习题 中 声明 了 一 个 关于 人 的 类 和 一 组 联 
系 mother-of，father-of 和 child-of， 使 这 个 类 包含 特定 的 子 类 ; (1) 男性 ; (2) 女性 ;， (3) 
为 父母 的 。 此 外 ， 我 们 希望 联系 mother-of ，father-of 和 child-of 存 在 于 (并 且 仅 仅 存 在 于 ) 
尽 可 能 小 的 类 中 ， 为 此 你 可 能 要 定义 其 他 的 子 类 ， 写 出 其 声明 ， 在 合适 的 地 方 请 使 用 多 
继承 。 

习题 4.3.4 图 4-6 中 的 contract 类 有 没有 合适 的 键 ? 有 的 话 ， 是 什么 ? 

习题 4.3.5 习题 2.4.4 中 有 两 个 例子 , 其 中 的 弱 实 体 集 是 必要 的 。 使 用 ODL 实 现 这 些 数 据 库 ， 
包括 范围 和 键 的 声明 。 

习题 4.3.6 用 ODL 设 计 习 题 2.1.9 中 的 注册 数据 库 。 


44 ”从 ODL 设 计 到 关系 设计 


E/R 模 型 一 般 在 数据 库 的 具体 实现 时 需要 被 转换 为 另 一 种 模型 ， 比 如 关系 模型 ， 而 ODL 则 
主要 是 用 于 真实 的 、 面 向 对 象 的 DBMS 系 统 的 描述 语言 。 但 是 ODL 就 像 所 有 面向 对 象 的 设计 系 
统一 样 ， 也 可 以 用 于 初步 设计 ， 然 后 在 具体 实现 之 前 被 转 成 关系 。 这 一 节 将 考虑 怎样 将 ODL 设 
计 转 化 为 关系 设计 。 这 个 过 程 在 很 多 方面 与 在 3.2 节 介绍 的 、 将 E/R 图 表 转 化 为 关系 数据 库 模式 
的 方法 相似 。 不 过 ， 对 于 ODL 而 言 ， 会 存在 一 些 新 的 问题 ， 包 括 ; 

1. 实体 集 一 定 要 有 键 , 但 在 ODL 中 没有 这 种 要 求 。 因 此 ， 有 些 情况 下 在 为 类 创建 关系 时 ， 
必须 自 创 一 个 属性 作为 键 。 

2. E/R 属 性 和 关系 属性 都 要 求 必须 是 原子 类 型 , 但 ODL 没 有 这 样 的 限制 。 集 合 类 型 的 属性 
转化 为 关系 的 方法 具有 技巧 性 ， 并 且 常 常 产生 不 规范 的 关系 ， 并 为 此 不 得 不 使 用 3.6 节 介绍 的 

办 法 重新 设计 。 
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3. ODL 人 允许 声明 方法 作为 设计 的 一 部 分 ， 但 是 不 存在 简单 的 办 法 将 方法 直接 转化 为 一 个 关 
系 模式 。 读 者 可 以 参见 4.5.5 节 ， 以 及 第 9 章 。 现 在 假设 所 有 要 转化 为 关系 设计 的 ODL 设 计 中 都 
不 包含 方法 。 
4.4.1 从 ODL 属 性 到 关系 属性 

作为 开始 ， 先 假设 每 个 类 对 应 一 个 关系 ， 而 类 的 每 个 特性 都 对 应 关系 的 一 个 属性 。 后 面 将 
看 到 ， 这 种 假设 在 很 多 方面 需要 改进 。 但 暂时 先 只 考虑 这 种 最 简单 的 情况 ， 在 这 种 情况 下 确实 
可 以 做 到 类 被 转化 为 与 关系 对 应 ， 特 性 可 以 转 为 属性 。 假 设 的 限制 如 下 : 

1. 类 中 的 所 有 特性 都 是 属性 ( 而 不 是 联系 或 者 方法 ) ; 

2. 属性 的 类 型 都 是 原子 类 型 ( 而 不 是 结构 或 集合 )。 

例 4.16 ”图 4-9 就 是 这 样 一 个 类 ， 它 有 四 个 属性 ， 每 个 属性 都 是 原子 类 型 的 : title 的 类 
型 是 字符 串 型 ，year 和 1ength 是 整 型 ，filmType 是 一 个 枚 举 型 ( 包含 两 个 值 )。 

class Movie (extent Movies) { 


attribute string title; 
attribute integer year; 


attribute integer length; 
attribute enum Film {color,blackAndWhite} filmType; 
}; 





图 4-9 类 Movie 的 属性 


例 中 创建 了 一 个 与 该 类 的 范围 名 一 样 的 关系 名 : Movies; 这 个 关系 有 四 个 属性 ， 各 对 应 
于 类 中 的 每 个 属性 。 关 系 的 属性 名 与 类 中 对 应 的 属性 名 相同 ， 因 此 该 关系 的 模式 为 : 


Movies (title, year, length, filmType) 


Movies 范 围 中 每 个 对 象 都 对 应 于 关系 Movies 中 的 一 个 元 组 ， 元 组 中 的 每 个 部 分 都 对 应 
于 类 对 象 的 一 个 属性 (并且 有 相同 的 值 )。 o 


4.4.2 类 中 的 非 原 子 类 型 属性 

但 是 ， 即 便 是 只 有 属性 的 类 ， 也 很 难 将 类 转化 为 关系 。 原 因 是 ，ODL 的 类 属性 可 以 是 复杂 
类 型 ,诸如 结构 、 集 合 、 包 和 列表 等 等 。 而 关系 模型 的 一 个 基本 要 求 是: 属性 必须 是 整 型 、 字 
符 串 型 等 原子 类 型 。 所 以 必须 设法 在 关系 中 表示 非 原子 类 型 的 属性 。 

类 型 是 原子 类 型 的 记录 结构 比较 容易 处 理 。 只 要 扩展 结构 的 定义 ， 为 结构 的 每 个 字段 定义 
一 个 关系 的 属性 即 可 。 这 里 惟一 可 能 出 现 的 问题 是 ， 在 一 个 类 中 的 两 个 结构 类 型 有 相同 名 字 的 
字段 ， 如 果 是 这 样 ， 重 新 选择 一 个 属性 名 即 可 解决 这 个 问题 。 


class Star (extent Stars) { 
attribute string name; 


attribute Struct Addr 
{string street, string city} address; 





图 4-10 有 结构 类 型 的 属性 的 类 


例 4.17 ”图 4-10 是 类 Staz 的 声明 ， 该 类 的 特性 都 是 属性 。 其 中 name 属 性 是 原子 类 型 的 ， 
但 是 address 属 性 是 一 个 有 两 个 字段 ( street 和 city ) 的 结构 类 型 。 对 于 这 个 类 ， 可 以 使 
用 一 个 包含 三 个 属性 的 关系 来 替代 。 第 一 个 属性 命名 为 name ， 对 应 Star 类 中 的 同名 属性 ， 第 
二 和 第 三 个 属性 分 别 命名 为 street 和 city， 分 别 对 应 于 address 结 构 类 型 的 两 个 同名 的 字 
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段 。 至 此 就 得 到 关系 的 设计 模式 : 


Stars(name, street, city) 








图 4-11 给 出 了 这 个 关系 的 一 些 典 型 元 组 的 例子 。 口 
name | street | city 
Carrie Fisher | 123 Maple St. | Hollywood 
Mark Hamill 456 Oak Rd. Brentwood 
Harrison Ford | 789 Palm Dr. Beverly Hills 





图 4-11 表示 影星 的 关系 


4.4.3 集合 类 型 属性 的 表示 

记录 结构 还 不 是 ODL 类 声明 中 类 型 最 复杂 的 属性 。 在 4.2.8 节 中 提 到 ， 类 型 还 可 以 使 用 类 型 
构建 器 Set 、Bag、List、Array 和 Dictionary 来 构造 。 在 将 其 转化 为 关系 模型 时 ， 各 自 
有 各 自 的 问题 。 这 里 只 对 最 常用 的 Set 进 行 详细 讨论 。 

一 种 处 理 办 法 是 ， 对 于 属性 4 的 值 集合 ， 为 集合 中 的 每 个 值 都 构造 一 个 元 组 ， 该 元 组 中 包 
括 属性 4 和 类 中 的 所 有 其 他 属性 的 相应 值 。 下 面 先 来 看 一 个 用 这 种 办 法 可 以 处 理 的 例子 ， 然 后 
再 看 这 个 办 法 的 问题 所 在 。 

class Star (extent Stars) { 


attribute string name; 
attribute Set< 


Struct Addr {string street, string city} 
> address; 





图 4-12 有 一 组 地 址 的 影星 


例 4.18 ”假设 类 star 如 图 4-12 所 示 被 定义 ,每 个 star 对 和 象 都 有 一 个 地 址 的 集合 。 另 外 假 
设 Carrie Fisher 另 外 拥有 一 栋 海 滩 别 墅 。 而 图 4-11 中 的 其 他 两 位 影星 都 只 有 一 个 住处 。 于 是 将 
为 名 字 ( name 属性 ) “carrie Fisher” 创 建 两 个 元 组 如 图 4-13 所 示 ， 其 他 元 组 不 变 。 O 


name street city 

_ Carrie Fisher | 123 Maple St. | Hollywood 
Carrie Fisher | 5 Locust Ln. Malibu 
Mark Hamill 456 Oak Rd. Brentwood 


Harrison Ford | 789 Palm Dr. Beverly Hills 
图 4-13 人 允许 地 址 集合 的 例子 


但 是 ,这 种 将 拥有 一 个 或 者 多 个 值 集合 属性 的 对 象 替换 为 元 组 集合 的 技巧 可 能 会 导致 不 规 
范 的 关系 ( 3.6 节 讨论 过 的 )。 事 实 上 ， 即 便 只 有 一 个 值 集合 类 型 的 属性 也 可 能 会 导致 违反 
BCNF 规 则 。 见 下 一 个 例子 。 

class Star (extent Stars) { 


attribute string name; 
attribute Set< 


Struct Addr {string street, string city} 
> address; 
attribute Date birthdate; 





图 4-14 拥有 一 个 地 址 值 集合 属性 以 及 一 个 生日 属性 的 Star 对 象 





a 


原子 类 型 的 值 : 是 特点 还 是 不 足 ? 
ODL 入 许 使 用 结构 类 型 ， 这 种 灵活 的 表示 方法 使 得 关系 模型 显得 碍 手 三 脚 。 有 人 可 
能 想 把 关系 模型 彻底 放弃 ( 至 多 把 它 作 为 一 种 被 淘汰 了 的 思想 )， 而 只 采用 面向 对 象 的 


ODL, 但 是 ,现状 是 关系 型 数据 库 至 今 为 止 仍 然 在 市 场 上 占 主导 地 位 。 一 个 重要 的 原因 
是 这 种 模型 的 简单 性 使 得 其 查询 语言 的 功能 十 分 强大 ， 特 别 是 SQL ( 见 第 6 章 )， 它 是 现 
在 数据 库 系 统 中 的 查询 语言 标准 。 


例 4.19 ”假设 在 图 4-14 例 子 的 基础 上 增加 一 个 birthdate 属 性 ， 其 类 型 Date 是 ODL 的 一 
个 原子 类 型 。 于 是 Birthdate 属 性 可 以 是 star 关 系 的 一 个 属性 。 如 图 4-12 所 示 设 计 模 型 变 成 : 


Stars(name, street, city, birthdate) 


车 把 图 4-13 的 数据 修改 一 下 ( 因为 地 址 集 属性 可 以 为 空 ， 例 如 假设 Harrison Ford 没 有 地 址 
信息 )， 得 到 图 4-15 的 结果 。 这 里 出 了 两 个 问题 : 

1. Carrie Fisher 的 出 生 属 性 重复 ， 导 致 了 信息 的 宛 余 。( 尽管 名 字 也 出 现 了 两 次 ， 但 这 不 是 
元 余 ， 没 有 名 字 信 息 就 无 法 知道 具体 的 地 址 信息 是 关于 哪 位 影星 ) ; 

2. 由 于 Harrison Ford 没 有 地 址 信息 ， 也 就 失去 他 的 其 他 信息 。 这 是 在 3.6.1 节 讨论 过 的 删除 
异常 的 一 个 例子 。 





name street city birthdate 
Carrie Fisher | 123 Maple St. | Hollywood | 9/9/99 
Carrie Fisher | 5 Locust Ln. Malibu 9/9/99 
Mark Hamill 456 Oak Rd. Brentwood | 8/8/88 


图 4-15 增加 属性 birthaate 之 后 的 元 组 


尽管 name 属 性 是 类 star 的 一 个 键 , 但 是 由 于 对 于 每 个 影星 ， 要 求 使 用 多 个 元 组 来 表示 其 
所 有 的 住址 ， 这 就 使 得 在 关系 Stars 中 ，name 不 是 一 个 键 ， 事 实 上 该 关系 的 键 是 { name, 
street, city }， 因 此 函数 依赖 


name — birthdate 


违反 了 BCNF 条 件 ， 这 也 就 是 为 什么 会 出 现 以 上 异常 的 原因 。 口 


至 于 如 何 处 理 在 类 声明 中 出 现 的 集合 类 型 ， 有 刀 种 选择 。 首 先 ， 可 以 把 所 有 的 属性 ( 不管 
是 不 是 集合 类 型 ) 都 放 在 关系 的 设计 模式 中 ; 然后 ， 使 用 3.6 节 和 3.7 节 提 到 的 一 般 化 方法 来 消除 
第 一 步 导 致 的 对 BCNF 和 4NF 条 件 的 违反 。 注 意 ， 一 个 集合 类 型 的 属性 与 一 个 单 值 属性 的 联合 将 
导致 违反 BCNF 条 件 ， 见 例 4.19。 在 同一 个 类 声明 中 的 两 个 集合 类 型 的 属性 将 导致 违反 4NF 条 件 。 

另 一 种 方式 是 把 所 有 的 集合 类 型 的 属性 分 离 出 来 ， 将 这 些 属性 的 值 域 与 类 的 对 象 集合 之 间 
的 关系 看 做 是 一 个 “多 对 多 ”的 联系 。 对 此 将 在 4.4.5 节 讨论 联系 时 使 用 这 个 方法 。 
4.4.4 其 他 类 型 构建 器 的 表示 

除了 记录 结构 和 和 集合， 一 个 ODL 类 定义 还 可 以 使 用 Bag、List、 Array 或 者 Dictionary 
来 构建 类 型 。 为 了 要 用 关系 模型 表示 一 个 相同 的 元 素 可 以 出 现 n 次 的 包 (ZE), 不 能 简单 地 将 
这 种 情况 处 理 成 4 个 完全 相同 的 元 组 S$ 。 另 外 也 可 以 在 设计 模式 中 增加 一 个 count 属 性 用 于 记 


O 精确 地 讲 ， 在 第 3 章 所 介绍 的 抽象 的 关系 模型 中 我 们 无 法 引入 完全 相同 的 元 组 。 不 过 在 基于 SQL 的 关系 型 
DBMS 中 这 是 可 以 的 。 也 就 是 说 ，SQL 中 关系 是 包 而 不 是 集合 。 参 见 5.3 节 和 6.4 节 。 假 如 查询 中 有 可 能 要 求 
得 到 元 组 的 个 数 ， 我 们 建议 还 是 使 用 这 里 描述 的 设计 模式 (不管 你 的 DBMS 是 否 允 许 重复 元 组 )。 
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录 包 中 每 个 元 素 出 现 的 次 数 。 例 如 假设 图 4-12 中 的 address 是 一 个 包 类 型 ( 而 不 是 集合 类 型 ) 
的 属性 ， 那 么 可 以 通过 如 下 这 样 的 元 组 集合 : 


name Street city count 
Carrie Fisher | 123 Maple St. | Hollywood | 2 
Carrie Fisher | 5 Locust Ln. Malibu 3 


表示 123 Maple St., Hollywood 是 Carrie Fisher 的 “二 次 ”地 址 ，5 Locust Ln., Malibu Carrie 
Fisher 的 “三 次 ”地 址 ， 而 不 管 这 到 底 意 味 着 什么 。 

如 果 地 址 是 一 个 列表 类 型 ( 而 不 是 刚才 提 到 的 那 两 种 类 型 )， 那 么 我 们 可 以 使 用 一 个 新 属 
性 position， 该 属性 用 于 指示 对 应 的 地 址 在 列表 中 的 位 置 。 例 如 ，Carie fisher 的 地 址 作为 列 
表 ，Hollywood 是 第 一 个 : 


name street city position 
Carrie Fisher | 123 Maple St. | Hollywood | 1 
Carrie Fisher | 5 Locust Ln. | Malibu 2 


如 果 地 址 是 定 长 数组 ， 则 可 以 用 数组 中 的 位 置 表示 。 例 如 地 址 是 数组 类 型 ， 结 构 为 两 个 城 
市 街道 ， 可 以 把 Star 对 象 用 如 下 形式 表示 : 


name streetl | cityl street2 city2 


Carrie Fisher | 123 Maple St. | Hollywood | 5 Locust Ln. | Malibu 


最 后 ， 字 典 (dictionary) 可 以 表示 成 一 个 由 键 域 和 值 域 组 成 的 二 元 组 的 集合 。 例 如 ， 
对 于 每 个 影星 ， 除 了 地 址 外 ， 若 还 要 保存 其 各 个 房产 的 抵押 契 据 持 有 者 。 那 么 ， 该 字典 类 
型 就 以 地 址 作为 其 键 域 ， 而 房产 的 抵押 契 据 持 有 者 银行 就 构成 其 值 域 。 下 面 的 图 表 是 一 个 
例子 : 


name street city mortgage-holder 
Carrie Fisher | 123 Maple St. | Hollywood | Bank of Burbank 
Carrie Fisher | 5 Locust Ln. Malibu Torrance Trust 


当然 ， ODL 中 属性 的 类 型 可 能 是 由 多 重 类 型 构建 器 定义 而 成 。 如 果 一 个 类 型 是 在 记录 
类 型 的 基础 上 使 用 集合 类 型 构建 器 ( 字典 类 型 除外 ) 定义 而 成 的 ( 也 就 是 说 ， 一 组 结构 )， 
那么 使 用 4.4.3 节 或 者 4.4.4 节 介绍 的 技巧 ， 可 以 首先 将 记录 类 型 看 做 原子 类 型 ， 然 后 再 将 结 
构 类 型 展开 成 多 个 属性 。 上 面 例子 中 ， 已 经 使 用 了 这 个 技巧 ( 原先 address 属 性 是 一 个 结 
构 类 型 ， 例子 中 已 经 把 它 展开 成 了 两 个 属性 street 和 city )。 字典 类 型 的 情况 类 似 ， 留 作 
习题 。 

很 多 情况 下 应 当 把 属性 类 型 的 复杂 度 控制 在 一 定 程度 ( 在 一 个 结构 声明 和 一 个 集合 类 型 构 
建 器 所 能 构造 的 范围 之 内 )。2.1.1 节 中 提 到 过 ， 尽 管 E/R 模 型 要 求 每 个 属性 都 是 原子 类 型 ， 然 而 
在 某 些 E/R 模 型 的 实际 实现 中 ， 类 型 定义 的 复杂 度 有 所 扩展 ， 不 过 还 是 被 限制 在 这 个 范围 以 内 。 
有 一 个 建议 ， 就 是 在 使 用 ODL 对 关系 数据 库 模式 作 设计 时 ， 尽 可 能 地 限制 自 己 不 要 使 用 太 多 的 
特性 。 在 习题 中 将 考虑 在 一 些 属性 类 型 更 加 复杂 的 情况 下 ， 如 何 选 择 处 理 方式 。 
445 ODL 中 联系 的 表示 

一 般 地 ，ODL 中 的 类 会 包含 与 其 他 类 之 间 的 联系 。 这 就 像 E/R 模 型 中 ， 可 以 为 每 一 个 联系 
创建 一 个 新 关系 ， 该 关系 连接 两 个 相关 类 的 键 。 不 过 在 ODL 中 ， 联系 互 为 相反 地 成 对 出 现 ， 对 
于 每 对 联系 ， 只 需 建 立 一 个 关系 。 





关上 AS O ë 


class Movie 
(extent Movies key(title, year) 


{ 
attribute string title; 
attribute integer year; 
attribute integer length; 
attribute enum Film {color,blackAndWhite} filmType; 
relationship Set<Star> stars 
inverse Star: :starredIn; 
relationship Studio ownedBy 
inverse Studio: :owns; 


}; 


class Studio 
(extent Studios key name) 


attribute string name; 
attribute string address; 
relationship Set<Movie> owns 

inverse Movie: :ownedBy; 





图 4-16 Movie 类 与 Studio 类 的 完全 定义 
$4.20 ”考虑 图 4-16 中 重新 给 出 的 类 Movie 和 studio 的 声明 。 可 以 看 到 title 和 year 属 
性 构成 了 Movie 类 的 键 ， 而 name 属 性 构成 了 studio 类 的 键 。 可 以 为 联系 对 owns 和 ownedBy 
创建 一 个 关系 。 关 系 需要 一 个 名 字 ， 在 此 把 它 叫 做 studioof。 该 关系 的 设计 模式 中 包括 
Movie 类 的 键 (title 和 year ) 和 Studio 类 的 键 name ， 但 在 设计 模式 里 name 被 改名 为 
studioName。 于 是 ,关系 的 设计 模式 如 下 ，; 


Studio0f (title, year, studioName) 


下 面 是 该 关系 的 一 些 典 型 的 元 组 例子 : 


title year | studioName 


Star Wars 1977 | Fox 
Mighty Ducks 1991 | Disney 
Wayne’s World | 1992 | Paramount 


口 


当 一 个 联系 的 类 型 是 多 对 一 时 ， 可 以 选择 将 该 联系 与 联系 中 “多 ”的 那 一 方 的 类 建立 一 个 
关系 。 这 样 做 的 效果 是 ,组合 了 两 个 拥有 共同 键 的 关系 ( 这 在 3.2.3 节 讨论 过 )。 这 样 就 不 会 导 
致 破坏 BCNF 条 件 ， 因 而 也 就 是 一 个 合法 的 、 并 且 常 用 的 选择 。 

例 4.21 ”如 果 不 为 联系 对 owns 和 ownedBy 创 建 一 个 关系 StudioOf ( 像 例 4.20 中 做 的 那 
样 ) 的 话 可 以 修改 设计 模式 中 关系 Movies 的 内 容 ， 在 其 中 增加 一 个 studioName 属 性 来 表示 
Studio 中 的 键 。 如 果 这 样 ，Movies 的 设计 模式 就 变 成 


Movies(title, year, length, filmType, studioName) 





一 些 典型 的 元 组 例子 : 
title year | length | filmType | studioName 
Star Wars 1977 | 124 color Fox 
Mighty Ducks 1991 | 104 color Disney 
Wayne’s World | 1992 | 95 color Paramount 
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注意 ，Movie 类 的 键 tijtle 和 year 也 是 关系 Movies 的 键 ， 因 为 每 一 部 电影 的 长 度 、 类 型 
和 制 片 厂 具 有 惟一 性 。 口 


应 该 记得 ， 尽 管 处 理 多 对 多 联系 时 ， 可 以 使 用 例 4.21 中 处 理 多 对 一 联系 时 的 方式 ， 但 这 并 
不 明智 。 事 实 上 ，3.2.3 节 的 例 3.6 中 考虑 了 ， 如 果 stars 联 系 是 电影 与 影星 之 间 的 多 对 多 联系 ， 
那么 当 为 这 个 联系 与 关系 Movies 中 的 其 他 信息 建立 一 个 关系 时 ， 会 出 现 什么 问题 。 这 种 方式 
下 的 模式 如 下 : 


Movies(title, year, length, filmType, studioName, starName) 


由 于 { title, year, starName } 是 键 , 而 属性 length、filmType 和 
studioName 都 仅仅 只 由 tit1e 和 year 惟 一 确定 ， 因 此 ， 该 模式 违反 了 BCNF 条 件 。 

同样 ， 如 果真 的 将 多 对 一 联系 与 一 个 类 所 转化 后 的 关系 组 合 ， 那 么 该 类 必然 是 属于 联系 中 
“多 ”的 那 一 方 。 例 如 ， 用 关系 Studios 将 owns 和 ownedBy 组 合 起 来 违反 BCNF 条 件 (见习 题 4.4.4)。 
4.4.6 如 果 没 有 键 会 怎样 ? 

因为 ODL 中 的 键 是 一 个 可 选项 ， 所 以 也 有 可 能 会 面 对 这 样 一 种 情况 . 即 不 存在 可 以 充当 键 
的 属性 。 当 类 C 是 某 个 或 者 某 些 联系 的 组 成 部 分 时 ， 可 能 就 会 有 这 样 的 问题 出 现 。 

这 里 建议 创建 一 个 新 的 属性 ( 或 者 叫 “ 证 书 ”)， 用 于 在 关系 设计 中 标识 类 C 的 对 象 。 这 很 


. 像 一 个 隐藏 的 面向 对 象 系统 中 的 对 象 标识 。 证 书 是 类 C 在 关系 中 的 一 个 附加 属性 ， 同 时 在 所 有 


出 现 类 C 的 关系 中 用 于 标识 类 C 的 对 象 。 注 意 ， 实 际 中 许多 重要 的 类 就 是 用 这 样 的 证 书 来 表示 
的 : 学 生 的 学 号 ， 司 机 的 驾驶 执照 等 等 。 

例 4.22 ”假设 名 字 不 足以 标识 一 个 影星 ， 因 此 将 为 每 位 影星 赋予 一 个 “证 书号 "， 用 以 惟 
一 地 标识 自己 。 这 样 Stars 关 系 的 模式 是 : 


Stars(cert#, name, street, city, birthdate) 


如 果 要 用 一 个 关系 StarsIn 表 示 电 影 与 影星 之 间 的 多 对 多 的 联系 的 话 ， 可 以 使 用 Movie 
中 的 title 和 year 属 性 再 加 上 表示 影星 的 证 书号 。 则 联系 模式 是 : 


StarsIn(title, year, cert#) 


4.4.7 习题 
习题 4.4.1 将 以 下 习题 中 你 的 ODL 设 计 转 化 为 关系 设计 
* a) 习题 4.2.1; 
b) 习题 4.2.2 ( 包括 该 习题 描述 的 四 个 修改 方式 ) ; 
c) 习题 4.2.3; 
* d) 习题 4.2.4; 
e) 习题 4.2.5; 
习题 4.4.2 ”将 图 4-5 中 的 ODL 描 述 转化 为 一 个 关系 数据 库 模型 的 设计 模式 。 习 题 4.2.6 中 的 
修改 对 你 的 关系 设计 模式 将 产生 怎样 的 影响 ? 
习题 4.4.3 ”考虑 一 个 字典 类 型 的 属性 ， 其 中 字典 类 型 的 键 类 型 以 及 值 类 型 都 是 原子 类 型 。 
怎样 将 拥有 这 样 一 个 属性 的 类 转化 为 一 个 关系 ? 
* 习题 4.4.4 ”文中 假设 ,如 果 你 把 图 4-16 中 所 示 的 类 studio 的 关系 ， 与 联系 对 owns 和 和 
ownedBy 组 成 另 一 个 关系 ， 将 会 违反 BCNF 规 则 。 举 例 说 明之 。 


— 


aes 


习题 4.4.5 我们 提 到 过 ， 把 一 个 比 记 录 的 集合 类 型 更 复杂 的 类 型 ， 转 化 为 关系 需要 一 些 技 
巧 ， 特 别 是 需要 定义 一 些 中 间 概 念 和 关系 。 下 面 的 一 组 习题 会 逐步 地 增加 类 型 复杂 性 ， 如 
何 将 它们 表示 成 为 关系 。 

* 有 a) 一 张 扑 克 牌 (card) 可 以 用 一 个 结构 来 表示 ， 结 构 包 含 一 个 牌 面 大 小 (rank ) 字段 

(2, 3, .., 10, Jack, Queen, King#lAce) 和 一 个 花色 (suit) FR ( 梅花 、 方 
块 、 红 心 、 黑 桃 )。 给 出 结构 类 型 card 的 合理 定义 ， 并 要 求 该 类 型 的 定义 与 其 他 任 
何 类 的 声明 相 独 立 ， 但 可 以 被 它们 使 用 。 

* b) 一 手 牌 (hand ) 是 一 个 牌 集 ， 牌 的 数量 不 定 。 对 类 Hand 进 行 声明 ， 类 的 对 象 是 一 
手 牌 也 就 是 说 类 声明 中 包含 一 个 属性 theHand， 其 类 型 为 一 手 牌 。 

c) 将 (b) 中 的 Hand 类 声明 转化 为 一 个 关系 模式 。 

d) 一 手 扑 克 牌 (poker hand ) 是 指 五 张 牌 的 集合 ， 对 于 这 个 概念 ， 重 复 (b) (c) 

e) AF (deal) 是 一 个 “对 ”的 集合 ， 其 中 每 “对 ”由 玩家 的 名 字 和 玩家 的 一 手 牌 构 
成 。 声 明 类 Deal1， 它 的 对 象 是 发 牌 ， 也 就 是 说 ， 该 声明 中 包括 一 个 类 型 为 发 牌 的 
属性 theDeal。 

f) 重复 (e)， 将 其 中 的 “一 手 牌 ” 限 制 为 “一 手 扑克 牌 ”。 

2) 重复 (e)， 对 于 其 中 的 “发 牌 ”使 用 字典 ， 可 以 假定 一 次 发 牌 中 的 各 个 玩家 的 名 字 
互 不 相同 。 

h) 将 (e) 中 的 类 声明 转化 为 一 个 关系 数据 库 模 式 。 

i) 假设 定义 发 牌 为 牌 集 的 集合 ( 没有 玩家 与 任 一 手 牌 相关 )。 建 议 使 用 如 下 关系 模式 
来 描述 发 牌 : 

Deals(dealID, card) 

其 中 ，card 是 某 次 发 牌 (deal) 中 某 一 手 牌 (hand ) 中 的 一 张 牌 ， 这 样 表示 有 没有 问题 ? 

如 果 有 ， 问 题 在 哪里 ? 怎样 改正 ? 

习题 4.4.6 假设 类 C 的 定义 如 下 

class C (key a) { 


attribute string a; 
attribute T b; 





* 





* 


*! 


* 


} 
这 里 7 是 某 种 类 型 。 如 果 7 的 类 型 如 下 ， 请 给 出 类 C 的 关系 模式 ， 并 且 指 出 关系 的 键 : 


a) Set<Struct S {string f, string g}> 
*! b)Bag<Struct S {string f, string gp 
! c)List<Struct S {string f, string g}> 


! d)Dictionary<Struct K {string f, string g}, Struct R {string i,string j}> 


45 对 象 关系 模型 


关系 模型 以 及 ODL 这 样 的 面向 对 象 的 模型 是 两 个 重要 的 DBMS 的 模型 。 很 长 时 间 以 来 ， 主 


流 的 商业 DBMS 一 直属 于 关系 模型 。 在 90 年 代 ， 面 向 对 象 模型 的 DBMS 有 了 一 定 的 发 展 ， 但 随 
即 又 消失 了 。 数 据 库 系统 没有 从 关系 模型 转化 为 面向 对 象 模型 ， 相 反 关 系 模型 的 数据 库 开发 商 
把 许多 面向 对 象 模型 中 的 概念 融入 到 关系 模型 中 。 结 果 就 是 ， 许 多 过 去 叫做 关系 模型 的 DBMS 


= 
A 
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系统 ， 现 在 被 称 为 是 对 象 关 系 模 型 的 DBMS 系 统 。 

第 9 章 中 会 遇 到 一 个 新 的 SQL 标准 ， 它 是 专门 为 对 象 关系 模型 数据 库 而 制定 。 这 一 章 只 进 
行 抽象 的 讨论 。4.5.1 节 介绍 对 象 关系 概念 ，4.5.2 节 讨论 它 最 早 的 一 个 实现 (MEK), WH 
关系 中 的 类 似 于 ODL 的 引用 在 4.5.3 节 讨论 ，4.5.4 节 比较 对 象 关系 模型 与 纯 面向 对 象 模型 。 
4.5.1 从 关系 到 对 象 关系 

关系 的 基本 概念 没有 改变 ， 但 在 加 入 了 以 下 的 特点 之 后 ， 关 系 模型 就 被 扩展 成 为 对 象 关系 
模型 ( Object-Relational model ): 

1. 结构 类 型 的 属性 。 对 象 关系 模型 系统 不 再 把 属性 的 类 型 限制 在 原子 类 型 ， 它 支持 一 个 与 
ODL 相 似 的 类 型 系统 : 可 以 使 用 原子 类 型 和 类 型 构建 器 ( 如 结构 ,集合 和 包 等 等 ) 来 创建 类 型 。 
其 中 特别 重要 的 类 型 是 记录 的 集合 。 ， 这 种 类 型 本 质 上 是 一 个 关系 ， 也 就 是 说 ， 一 个 元 组 的 一 
个 分 量 值 可 能 就 是 完整 的 一 个 关系 。 

2. 方法 。 特 别 定义 的 操作 ， 可 以 用 于 用 户 定义 的 类 型 值 。 虽 然 还 没有 着 手 讨 论 如 何 操作 关 
系 模型 ， 或 者 对 象 关系 模型 中 的 值 和 元 组 ， 但 是 在 第 5 章 ， 刚 刚 开 始 讨论 这 个 问题 时 就 会 发 现 
一 些 惊 人 的 结果 。 例 如 ， 数 值 类 型 的 值 可 以 用 加 或 小 于 这 样 的 算术 运算 符 来 操作 。 不 过 ， 在 对 
象 关系 模型 中 ， 还 可 以 为 一 个 类 定义 特别 的 操作 ， 就 像 在 例 4.7 中 Movie 类 的 ODL 方 法 。 

3. 元 组 的 标识 符 。 在 对 象 关 系 系统 中 ， 元 组 就 是 面向 对 象 系统 中 的 对 象 。 所 以 在 某 些 情况 
下 ， 让 每 个 元 组 都 有 一 个 独特 的 标识 ， 以 区 别 于 其 他 元 组 ， 甚 至 是 区 别 于 所 有 组 成 分 量 都 相等 
的 元 组 会 很 有 用 。 这 个 标识 ， 就 像 ODL 中 的 对 象 标识 一 样 ， 对 于 用 户 而 言 一 般 不 可 见 ， 不 过 在 
某 些 特殊 情况 下 还 是 可 见 的 。 

4. 引用 。 纯 粹 的 关系 模型 系统 没有 引用 〈 指向 元 组 ) 的 概念 ， 而 对 象 关 系 模型 的 系统 可 有 
不 同 的 方式 使 用 引用 。 

下 一 节 ,， 将 集中 讨论 这 些 对 象 关 系 模型 系统 中 新 增 的 特点 。 

45.2 幅 套 关系 

EMS (1) 点 扩展 的 关系 常常 被 称 做 “ 髋 套 关系 ”。 在 嵌 套 关系 模型 (nested-relational 
model) 中 ， 人 允许 非 原子 类 型 的 关系 属性 。 特 别 地 ， 一 个 类 型 可 以 是 一 个 关系 模式 。 这 样 ， 就 
可 以 方便 地 递归 定义 关系 属性 的 类 型 和 关系 的 类 型 (模式 )。 

基础 : 属性 的 类 型 可 以 是 一 个 原子 类 型 ( 如 整 型 、 实 型 和 字符 串 型 等 等 )。 

归纳 : 关系 的 类 型 可 以 是 ， 任 何 包含 一 个 或 者 多 个 合法 类 型 属性 的 名 字 的 模式 。 此 外 ， 模 
式 也 可 以 是 任何 属性 类 型 。 

在 讨论 关系 模型 时 没有 指出 与 每 个 属性 联结 的 特殊 原子 类 型 ， 因 为 这 些 类 型 ( 整 型 、 实 型 
和 字符 串 型 等 等 ) 之 间 的 差别 并 不 会 影响 讨论 的 问题 ( 比如 ， 函 数 依赖 和 规范 化 )。 在 此 将 继 
续 这 条 原则 ， 不 过 在 描述 一 个 谋 套 的 关系 模式 时 ， 必 须 指 明 哪些 属性 本 身 就 是 一 个 关系 模式 。 
为 了 做 到 这 一 点 ， 将 把 这 些 属性 当 作 关系 名 一 样 处 理 ， 用 在 属性 后 面 加 上 括号 括 起 来 的 属性 
(它们 是 属性 的 属性 ) 列表 来 表示 以 上 情况 。 于 是 ， 这 些 属 性 拥有 自己 的 属性 列表 ， 并 且 可 以 
有 任意 多 级 这 样 的 舱 套 关系 。 

例 4.23 ”为 影星 设计 一 个 嵌 套 的 关系 模式 ， 其 中 包含 了 一 个 属性 movies,， 它 是 一 个 代表 
所 有 该 影星 出 演 的 电影 集合 的 关系 。 Movies 的 关系 模式 包括 title、year 和 影片 的 长 度 
1ength。 关 系 Stars 的 模式 包括 name、address 和 birthdate， 还 有 就 是 novies 中 的 信 
息 。 另 外 ，address 属 性 也 是 一 个 关系 类 型 ( 包含 street 和 city 两 个 属性 )， 可 以 在 这 个 关 

O 严格 地 说 ， 应 该 是 一 个 包 而 不 是 一 个 集合 ， 因为 商业 DBMS 一 般 都 支持 有 重复 元 组 ( 是 包 不 是 集合 ) 的 关系 。 


eet 


系 中 记录 影星 的 多 个 地 址 。Stars 的 模式 可 以 设计 为 : 


Stars(name, address(street, city), birthdate, 
movies(title, year, length)) 


图 4-17 显 示 了 航 套 关系 Stars 的 一 个 例子 ， 其 中 有 两 个 元 组 ， 一 个 是 Carrie Fisher}, 5 
一 个 是 Mark Hamill 的 。 为 了 节省 空间 简写 了 元 组 的 分 量 值 ， 以 便于 阅读 。 用 虚线 将 元 组 之 间 
DA, 仅仅 只 是 为 了 阅读 方便 ， 没 有 其 他 特别 的 意思 。 





address birthdate movies 


pe [i 


Star Wars| 1977| 124 
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图 4-17 一 个 关于 影星 以 及 他 (她 ) HAO EER 


在 Carrie Fisher 的 元 组 中 ， 可 以 看 到 她 的 名 字 是 原子 类 型 ， 接 下 来 是 aadress 的 值 。 
address 是 一 个 关系 ， 这 个 关系 有 两 个 属性 street 和 city， 并 有 两 个 元 组 ， 每 个 都 对 应 于 
她 的 一 个 住址 。 然 后 是 她 的 birthdate ( 它 也 是 原子 类 型 的 )。 最 后 是 movies 属 性 , 它 的 类 
型 是 一 个 关系 ， 这 个 关系 有 title，year 和 1]ength 等 三 个 属性 ， 其 值 包含 了 Carrie Fisher 最 
著名 的 三 部 影片 。 

第 二 个 元 组 是 关于 Mark Hamill， 其 结构 与 上 一 个 元 组 相同 。 其 中 aqdress 关 系 只 有 一 个 
元 组 ， 因 为 他 只 有 一 个 住址 。Mark Hamill 的 Movies 关 系 的 内 容 与 Carrie Fisher 的 movies 关 
系 的 内 容 很 像 ， 因 为 正巧 两 位 影星 的 代表 作 一 样 。 要 注意 的 是 ， 这 两 个 关系 (Movies ) 是 元 
组 的 不 同 分 量 ， 只 不 过 它们 恰好 有 相同 的 值 ， 这 与 两 个 不 同 分 量 恰好 有 相同 的 整数 值 124 的 情 
况 类 似 。 口 
4.5.3 引用 

一 部 影片 (如 “Star Wars”) 可 能 在 柑 套 关系 Stars 中 的 多 个 元 组 的 movies 关 系 中 出 现 ， 
这 将 导致 元 余 。 实 际 上 ， 例 4.23 中 的 模式 就 是 一 个 不 属于 BCNF 的 幅 套 关系 模式 。 可 是 ， 即 便 
分 解 Stars 关 系 也 无 法 避免 元 余 。 于 是 必须 设法 令 任 何 电 影 在 Movies 关 系 中 最 多 出 现 一 次 。 

要 解决 这 个 问题 ， 对 象 关 系 模型 需要 提供 引用 元 组 ( 如 元 组 地 | 用 元 组 *， 而 不 是 直接 合并 / 
和 s ) 的 支持 。 因 此 需要 为 类 型 系统 增加 以 下 的 归纳 规则 : 一 个 属性 的 类 型 可 以 是 对 另外 一 个 
给 定 关 系 模式 中 某 个 元 组 的 引用 。 

如 果 属 性 4 的 类 型 是 对 一 个 名 为 R 的 关系 的 元 组 的 引用 ， 在 设计 模式 时 将 4 表示 为 4(kR)。 
注意 ， 这 种 情况 与 ODL 中 的 联系 相似 : 联系 名 为 4 ， 类 型 为 R。 也 就 是 说 ，4 属 性 被 连接 到 一 个 
R 类 型 的 对 象 。 类 似 地 ， 如 果 属 性 4 的 类 型 是 一 组 对 模式 R 的 元 组 的 引用 ， 将 它 表示 为 ; A({* 
R} )。 这 与 ODL 中 联系 A 的 类 型 是 set< R > 的 情况 相似 。 

例 4.24 ”消除 图 4-17 中 元 余 的 一 种 有 效 方式 是 使 用 两 个 关系 : 一 个 用 于 影星 ， 另 一 个 用 于 
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电影 。 关 系 Movies 是 一 个 一 般 关系 ， 其 模式 与 例 4.23 中 的 属性 Movies 一 样 。 关 系 Stars 的 模 
式 与 该 例 中 的 舌 套 关系 Stars 相 近 ， 只 是 其 Movies 属 性 的 类 型 变 成 一 组 对 Movies 元 组 的 引 
用 。 两 个 关系 的 模式 设计 如 下 : 

Movies(title, year, length) 


Stars(mame, address(street, city), birthdate, 
movies ({*Movies})) 





name address birthdate; movies| 
a -十 — 








Fisher 9/9/99 











Hamill Street city 8/8/88 














Oak B‘ wood 
L L 


Stars Movies 


图 4-18 引用 集合 作为 属性 的 值 


图 4-17 的 数据 填 人 这 个 新 的 模式 中 ， 就 得 到 图 4-18 的 结果 。 注 意 ， 因 为 每 部 电影 只 存在 一 
个 元 组 ,虽然 有 许多 对 它 的 引用 ,但 是 消除 了 例 4.23 模 式 中 的 元 余 。 口 


4.5.4 面向 对 象 与 对 象 关系 的 比较 

面向 对 象 的 数据 模型 〈《 以 ODL 为 典型 ) 和 这 里 讨论 的 对 象 关系 模型 极其 相似 ! 下 面 是 几 个 
显著 方面 的 比较 : 

对 象 与 元 组 

一 个 对 象 的 值 就 是 一 个 带 有 属性 和 联系 结构 的 组 成 ，ODL 中 没有 规定 联系 表示 方式 的 标准 ， 
不 过 可 以 假设 对 象 之 间 的 连接 是 通过 某 些 指针 集合 建立 起 来 。 元 组 也 是 一 个 结构 ， 不 过 在 传统 的 
关系 模型 中 ， 它 只 包含 属性 。 联 系 必 须 通过 另 一 个 关系 的 元 组 来 表示 ， 见 3.2.2 节 。 但 是 对 象 关系 
模型 允许 元 组 中 包含 引用 集合 ， 同 样 也 允许 联系 直接 与 表示 一 个 “对 象 ”( 或 实体 ) 的 元 组 合并 。 

范围 和 关系 

ODL 中 把 类 中 存在 的 所 有 对 象 都 认为 是 处 于 该 类 的 “范围 ”中 ， 而 对 象 关系 模型 允许 几 个 
模式 完全 相同 的 关系 并 存 。 这 可 能 令 人 感觉 对 象 关 系 模型 更 加 容易 区 别 同一 个 类 中 的 不 同 成 员 
HR) 不 过 ，ODL 中 支持 接口 〈 不 包含 范围 的 类 的 声明 ， 见 4.3.4 节 “接口 ” 框 中 的 说 明 )。 
这 样 ODL 就 允许 用 户 定义 任意 多 的 类 ， 它 们 都 继承 这 个 接口 ， 而 每 个 子 类 都 可 以 有 一 个 专 有 的 
范围 。 因 此 ， 当 多 个 集合 间 共 享 同一 个 声明 时 ， 两 者 很 类 似 。 

方法 

对 象 关系 模型 中 我 们 没有 讨论 方法 的 使 用 。 不 过 事实 上 ，SQL-99 标 准 以 及 面向 对 象 的 思 
想 的 使 用 ， 都 使 得 对 象 关 系 模 型 和 ODL 一 样 ， 具 有 为 任何 类 声明 及 定义 方法 的 能 力 。 

类 型 系统 

两 者 的 类 型 系统 也 相当 地 相似 : 都 是 在 基于 原子 类 型 基础 上 使 用 结构 、 集 合 类 型 构建 器 来 
创建 新 类 型 。 集 合 类 型 的 可 选 部 分 可 能 有 些 不 同 ， 但 至 少 都 包含 集合 和 包 。 而 且 ， 集 合 类 型 
(或 者 包 类 型 ) 和 结构 类 型 在 两 个 模型 中 都 有 一 个 特殊 的 作用 ， 那 就 是 它们 是 ODL 中 的 类 和 对 
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象 关系 模型 中 的 关系 类 型 。 

引用 和 对 象 标识 

一 个 纯粹 的 面向 对 象 的 模型 使 用 一 个 用 户 完全 不 可 见 的 对 象 标识 , 该 标识 不 能 由 查询 得 到 。 
对 象 关系 模型 允许 类 型 中 包含 引用 ， 所 以 ， 在 有 些 情况 下 用 户 可 以 见 到 这 些 值 ， 甚 至 在 以 后 使 
用 它们 。 这 种 情况 是 好 是 坏 ， 也 不 能 一 概 而 论 。 在 实际 中 ， 两 个 模型 基本 上 没有 差别 。 

向 下 兼容 性 

既然 两 种 模型 的 差别 微乎其微 ， 那 么 为 什么 市 场 上 ， 是 对 象 关系 模型 而 不 是 纯粹 的 面向 对 
象 的 系统 占 主导 地 位 呢 ? 原 因 可 能 在 于 ， 在 面向 对 象 模 型 被 提出 以 前 , 已 经 有 相当 数量 的 关系 
模型 的 商业 系统 。 当 关系 数据 库 管 理 系 统 发 展 成 对 象 关系 管理 系统 时 ， 开 发 商 总 是 特别 注意 向 
下 兼容 性 :系统 的 新 版 本 仍然 应 当 支 持 以 前 版 本 中 可 以 使 用 的 代码 ， 并 是 接受 向 一 个 数据 库 模 
式 ， 而 用 户 并 不 关心 是 否 采用 了 任何 面向 对 象 的 特性 。 另 一 个 原因 还 在 于 ， 要 将 一 个 系统 完全 
转化 为 面向 对 象 管理 系统 的 工作 量 巨大 。 所 以 ， 尽 管 面向 对 象 系统 在 技术 上 更 有 优势 ， 但 还 不 
足以 使 开发 商 将 大 量 已 有 的 数据 库 转换 到 纯粹 的 对 象 关系 管理 系统 上 。 

4.5.5 ODL 设 计 到 对 象 关 系 设计 的 转化 

在 4.4 节 , 已 经 学 习 了 将 ODL 设 计 转 化 为 关系 模型 的 模式 的 方法 。 当 时 的 难点 在 于 ，ODL 
有 很 丰富 的 建 模 方式 ; 非 原子 属性 类 型 、 联 系 和 方法 。 现 在 要 将 其 转化 为 对 象 关系 模型 ， 某 些 
难点 已 经 不 再 存在 。 针 对 不 同 的 对 象 关系 模型 (考虑 第 9 章 中 的 具体 的 SQL-99 模 型 )， 可 以 将 
大 部 分 非 原子 类 型 转化 为 一 种 对 应 的 对 象 关 系 类 型 ， 如 结构 、 集 合 、 包 、 链 表 以 及 数组 。 

如 果 一 个 ODL 设 计 中 的 类 型 在 对 象 关系 模型 中 没有 对 应 的 类 型 的 话 ， 可 以 使 用 4.4.2 节 到 
4.4.4 节 介绍 过 的 技巧 。 第 4.4.5 节 中 ， 已 知 对 象 关 系 模型 中 的 联系 的 表示 方式 基本 与 关系 模型 中 
的 一 样 〈《 不 过 人 们 更 习惯 于 使 用 引用 ， 而 不 是 键 )。 最 后 ， 如 果 ODL 设 计 中 包含 方法 ， 那 么 就 
无 法 将 它 转化 为 一 个 纯粹 的 关系 模型 ， 但 对 象 关 系 模型 大 多 数 支持 方法 ， 所 以 这 个 方面 的 限制 
也 可 以 放宽 。 

4.5.6 习题 

习题 4.5.1 使 用 赃 套 关系 和 带 引用 的 关系 中 的 概念 ,设计 包含 以 下 信息 的 关系 。 对 于 每 种 

情况 ， 判 断 关 系 中 应 当 包括 哪些 属性 ， 请 注意 参考 电影 的 例子 。 同 时 指出 你 的 设计 有 无 元 

余 ， 有 的 话 ， 应 当 如 何 修改 来 避免 ? 

* a 电影 : 包括 通常 的 属性 ， 另 外 加 上 该 电影 的 影星 以 及 影星 的 通常 信息 。 

*! b) 制 片 三 : 包括 制 片 广 制作 的 所 有 电影 、 每 部 电影 中 的 所 有 影星 以 及 电影 、 影 星 和 制 
片 厂 的 通常 信息 。 

c) 电影 和 电影 的 制 片 厂 、 电 影 中 的 影星 以 及 各 自 的 通常 信息 。 
习题 4.5.2 ”用 对 象 关系 模型 表示 习题 2.1.1 中 的 银行 信息 。 要 求 可 以 方便 地 通过 顾客 的 元 
组 ， 得 到 其 账户 ， 同 时 也 可 以 方便 地 通过 账户 的 元 组 来 找到 该 账户 的 户主 。 注 意 避 免 元 
余 。 
习题 4.5.3 ”如 果 在 习题 4.5.2 中 每 个 账户 只 能 有 一 个 户主 ， 那 么 怎样 简化 你 在 习题 4.5.2 中 的 
Rit? 

! 习题 4.5.4 用 对 象 关系 模型 实现 习题 2.1.3 中 的 队员 、 球 队 、 球 迷 。 
! 习题 4.5.5 用 对 象 关 系 模型 实现 习题 2.1.6 中 的 家 谱 。 


4.6 半 结 构 化 数据 
半 结 构 化 的 数据 ( semistructured-data ) 模型 在 数据 库 系 统 中 有 一 个 独特 的 地 位 。 
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1. 它 是 一 种 适 于 数据 库 集 成 ( integration ) 的 数据 模型 ， 这 是 说 ， 它 可 以 用 来 描述 多 个 数 
据 库 ( 这 些 数 据 库 包 含 不 同 模式 中 的 相似 数据 ) 中 的 数据 。 

2. 它 是 一 种 文档 的 模型 ， 用 于 在 Web 上 共享 信息 。4.7 节 要 讨论 的 XML 就 是 这 样 的 一 个 例子 。 

这 一 节 ， 将 介绍 半 结 构 化 的 基本 思想 ， 理 解 为 什么 这 种 模型 要 比 以 前 讨论 过 的 模型 更 灵活 。 
46.1 为 何 需要 半 结 构 化 数据 模型 

先 来 回忆 一 下 E/R 模 型 以 及 其 基本 的 数据 种 类 一 一 实体 集 和 联系 。 关 系 模型 只 有 一 种 数 
据 一 一 关系 。 在 3.2 节 还 讨论 了 用 关系 来 代替 联系 和 实体 集 的 方法 。 使 用 两 种 数据 有 其 优点 : 
在 为 现实 世界 建 模 时 可 以 选择 实体 集 或 联系 进行 E/R 模 型 设计 ， 做 到 更 加 合适 地 匹配 要 模拟 的 
概念 。 但 是 使 用 一 种 数据 类 型 也 有 好 处 : 它 简 化 了 表示 模式 的 符号 ， 而 且 查 询 数据 库 中 各 种 类 
型 数据 也 更 加 高 效 。 从 第 11 章 开始 将 学 习 DBMS 的 实现 ， 关 系 模型 的 优势 将 会 更 加 明显 。 

现在 来 考虑 4.2 节 介绍 的 面向 对 象 模 型 ， 它 有 两 个 主要 的 概念 类 ( 以 及 其 范围 ) 和 联系 。 
类 似 地 ，4.5 节 中 介绍 的 对 象 关系 模型 中 也 有 两 个 概念: 属性 可 以 是 类 ) 和 关系 。 

可 以 将 半 结 构 化 数据 看 成 是 两 个 概念 的 混合 : 类 -联系 或 者 类 -关系 ， 就 像 关 系 模型 将 实体 
集 和 联系 这 两 个 概念 混合 起 来 一 样 ， 只 是 混合 的 原因 不 相同 。 关 系 模型 成 功 的 一 大 原因 在 于 它 
简化 了 系统 的 高 效 实现 ， 而 人 们 对 半 结 构 化 的 模型 尤为 关注 的 原因 则 是 其 灵活 性 。 虽 然 其 他 模 
型 都 有 一 个 设计 模式 的 概念 ( E/R 图 、 关 系 模式 或 者 ODL 声 明 都 是 设计 模式 的 例子 )， 但 是 半 结 
构 化 的 数据 是 “无 模式 ”的 。 更 加 恰当 的 说 法 是 ， 半 结构 化 数据 本 身 就 指明 了 其 模式 ， 而 且 这 
样 的 模式 会 随 着 时 间 和 数据 库 而 改变 。 
4.6.2 半 结 构 化 数据 表示 . 

半 结 构 化 数据 的 数据 库 是 节点 (node) 的 集合 ， 每 个 节点 都 是 一 个 叶子 节点 (leaf) 或 者 
是 一 个 内 部 节点 (interior )。 叶 子 节点 与 数据 相关 ， 数 据 的 类 型 可 以 是 任意 原子 类 型 ， 如 数字 
和 字符 串 。 每 个 内 部 节点 至 少 都 有 一 条 向 外 的 驱 。 每 条 弧 都 有 一 个 标签 (label )， 该 标签 指明 
弧 开始 处 的 节点 与 弧 末 端的 节点 之 间 的 关系 。 有 一 个 名 为 root 的 内 部 节点 ， 其 上 端 没 有 纺 ， 它 
代表 整个 数据 库 。 每 个 节点 都 可 从 root 可 达 ， 但 是 这 个 图 未 必 是 一 棵 树 。 

例 4.25 ”图 4-19 是 一 个 关于 电影 与 影星 的 半 结 构 化 数据 库 。 顶 部 的 节点 名 为 Root， 这 是 整 
个 数据 库 的 人 口 ， 可 以 认为 这 个 节点 表示 了 整个 数据 库 。 中 心 对 象 (或 者 叫 实 体 )，( 此 例 中 为 
影星 和 电影 ) 是 Root 节点 的 子 节点 。 





Carrie i cii k 
Fisher Hamill 


Mapie H'wood Locust Malibu 


starsin 








图 4-19 表示 一 部 电影 和 其 中 影星 的 半 结 构 化 数据 
图 中 还 看 到 许多 叶子 节点 : 例如 ， 最 左边 的 叶子 节点 旁边 写 着 Carrie Fisher, BAW 





et 


的 叶子 节点 旁边 写 着 1977。 还 有 许多 内 部 节点 ， 有 三 个 特别 的 节点 分 别 标 着 cf，zmjh 和 sw， 分 别 
代表 “Carrie Fisher”, “Mark Hamill” 和 “Siar Waryr”"。 这 些 标签 并 不 属于 数据 库 ， 在 这 里 给 
出 只 是 为 了 能 够 方便 地 引用 这 些 节点 ， 否 则 它们 将 没有 名 字 。 例 如 考虑 节点 sw， 它 代表 了 概念 
“Star Wars”: 该 电影 的 名 称 和 年 份 在 此 给 出 ， 而 其 他 信息 如 长 度 和 出 演 该 部 影片 的 影星 没有 给 
出 。 口 


弧 上 的 标签 将 类 或 者 联系 结合 起 来 ， 有 两 个 意义 :( 假设 有 一 个 名 为 L， 从 节点 N 出 发 到 达 
节点 1 的 标签 ) 

1. 如 果 N 是 一 个 对 象 或 者 结构 ， 而 M 是 N 的 属性 《入 为 对 象 ) 或 者 域 ( N 为 结构 )， 那 么 Z 代 
表 属 性 或 者 域 的 名 字 ，; 

2. 若 N 和 MM 都 是 对 象 ，L 就 是 从 N 到 M 的 一 个 联系 的 名 字 。 

例 4.26 再 看 图 4-19。cf 代 表 的 节点 可 以 看 做 是 代表 Carrie Fisher 的 Star 对 象 。 从 这 个 节 
点 出 发 的 一 条 弧 的 标签 是 name， 它 表示 属性 name ， 连 接 到 代表 名 字 的 叶子 节点 。 另 外 还 有 两 
条 弧 ， 其 标签 都 是 address， 末 端 是 两 个 表示 地 址 的 叶子 节点 。 这 两 条 弧 对 应 于 图 4-12 中 的 集合 
类 型 属性 address。 

这 些 地 址 都 是 结构 ， 有 子 域 street 和 city， 图 4-19 中 从 这 些 节 点 出 发 的 弧 的 标签 是 street 
和 city， 它 们 的 末端 都 是 对 应 数据 的 叶子 节点 。 

图 4-19 中 也 有 第 二 种 弧 。 例 如 有 一 个 从 cy 节点 出 发 到 sw 节点 ， 其 标签 名 为 starsIn 的 弧 。 
对 节点 mh 而 言 ， 也 有 一 个 类 似 的 弧 。 节 点 sw 有 两 个 分 别 到 cf 和 mh 的 弧 。 这 些 弧 代表 的 是 电影 
和 影星 之 间 的 联系 。 口 


4.6.3 信息 集成 与 半 结 构 化 数据 

与 以 前 讨论 的 模型 不 同 ， 半 结构 化 数据 模型 是 自 描述 self-describing )， 模 式 与 数据 附着 
在 一 起 。 每 个 节点 〈toot 节 点 除外 ) 都 是 一 个 或 者 多 个 弧 的 末端 ， 而 这 些 弧 的 标签 则 说 明了 未 
端 节点 在 出 发 节点 中 的 角色 。 其 他 模型 中 ， 设 计 模式 是 固定 的 ， 它 与 数据 本 身分 开 ， 数 据 的 角 
色 信 息 隐 含 在 设计 模式 中 。 i - 

读者 可 能 会 想 ， 这 样 的 系统 有 些 什么 优点 。 事 实 上 ， 有 些小 型 的 信息 系统 ( 如 Lotus Notes ) 
就 是 采用 这 种 自 描述 数据 的 方式 实现 的 。 但 是, 数据 库 是 为 了 大 规模 的 数据 而 设计 ， 一 般 而 言 ， 
圈定 格式 的 数据 更 有 优势 ， 比 如 :固定 的 设计 模式 可 以 将 数据 组 织 成 便于 高 效 查询 ( 第 13 章 开 
始 讨论 ) 的 形式 。 

半 结 构 化 的 灵活 性 使 之 在 两 个 应 用 中 显得 很 重要 ， 相 关 问 题 还 会 在 4.7 节 讨论 ， 这 里 仅仅 
考虑 它 作为 信息 集成 的 使 用 。 实 际 应 用 中 可 能 有 许多 数据 库 ， 一 个 很 普遍 的 要 求 就 是 希望 像 在 
一 个 数据 库 中 一 样 访问 两 个 或 者 更 多 数据 库 中 的 数据 。 例 如 公司 可 能 会 合并 ， 它 们 都 有 各 自 的 
关于 人 事 、 销 售 、 存 货 、 产 品 设计 以 及 许多 其 他 方面 的 数据 库 。 如 果 这 些 数 据 库 的 模式 都 一 致 ， 
那么 要 合并 它们 就 很 容易 ， 比 如 只 要 把 模式 相同 的 两 个 关系 中 的 元 组 合并 即 可 。 

但 是 ， 一 般 情 况 下 都 没有 那么 简单 。 各 自 开发 的 数据 库 不 太 可 能 有 相同 的 设计 模式 ， 即 便 
其 中 包含 的 都 是 人 事 信 息 : 一 个 数据 库 中 可 能 会 有 配偶 姓名 的 记录 ;而 另 一 个 则 没有 ; 一 个 可 
能 允许 包含 多 个 地 址 、 电 话 和 电子 邮件 的 信息 ， 而 另 一 个 可 能 只 允许 记录 一 个 ;一 个 数据 库 可 
能 是 关系 型 的 ， 而 另 一 个 则 是 面向 对 象 的 。 

更 糟糕 的 是 ， 数 据 库 一 般 都 是 持续 运行 ， 不 允许 因为 要 复制 数据 到 另 一 个 数据 库 而 将 其 关 
闭 ( 即使 可 以 得 出 从 某 一 模式 到 另 一 模式 的 最 有 效 的 途径 )。 这 些 都 被 称 做 遗留 数据 库 问题 
(legecy-database problem) ; 一 旦 数据 库存 在 了 ， 就 不 可 以 将 其 与 应 用 分 开 ， 不 允许 它 中 途 退 役 。 
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一 种 可 能 的 解决 方案 见 图 4-20。 显 示 了 用 户 
两 个 数据 库 外 加 一 个 接口 ， 它 也 可 包含 多 
个 遗留 数据 库 。 这 两 个 数据 库 都 不 可 改变 ， 

这 样 它们 就 可 以 支持 日 常 应 用 。 

为 了 和 集成 上 的 灵活 性 ， 接 口 支持 半 结 
构 化 数据 ， 用 户 可 以 使 用 适 于 该 数据 的 查 其他 应 用 
询 语言 查询 接口 。 半 结构 化 的 数据 可 以 通 
过 翻译 数据 源 的 数据 来 创建 ， 每 个 数据 库 
都 有 一 个 称 做 包装 器 (wrapper， 或 者 叫做 适 图 4-20 通过 一 个 支持 半 结 构 化 数据 的 
配器 “adapter”) 的 组 件 ， 负 责 翻 译 工 作 。 接口 集成 两 个 遗留 的 数据 库 

或 者 ， 根 本 就 不 存在 接口 处 的 半 结 构 
化 数据 。 但 是 用 户 查 询 接口 时 仿佛 有 半 结 构 化 数据 存在 ， 接 口 通 过 把 查询 要 求 传递 给 数据 源 ， 
并 返回 在 数据 源 中 相应 模式 的 引用 。 

例 4.27 ”在 使 用 结构 如 图 4-19 的 系统 时 ， 假 设 是 从 几 个 不 同 的 数据 源 收集 影星 的 信息 。 注 
意 到 Carrie Fisher 地 址 信息 是 一 个 结构 ， 有 street 和 city 两 个 组 成 部 分 。 这 种 结构 与 峙 套 关 
AStars ( name, address (street, city) ) 的 模式 相似 。 

另 一 方面 ，Mark Hamill 的 地 址 信息 不 是 结构 ， 只 是 分 开 的 street 和 city。 这 样 的 信息 
可 能 源 于 Stars ( name, street, city ) 的 设计 模式 ， 这样 的 模式 仅仅 支持 每 个 影星 一 
个 地 址 。 如 果 数 据 来 自 多 个 不 同 的 数据 库 的 话 ， 还 可 能 存在 其 他 一 些 模 式 上 的 不 同 : 可 选 的 胶 
着 类 型 、 导 演 、 制 片 人 、 所 属 制 片 广 等 等 。 口 


4.6.4 习题 
习题 4.6.1 由 于 在 半 结 构 化 数据 模型 中 不 用 设计 模式 ， 所 以 不 要 求 你 来 设计 模式 。 不 过 将 
要 问 你 为 了 表现 某 种 现实 情况 ， 应 当 如 何 组 织 数据 ; 
* a) 在 图 4-19 的 基础 上 增加 信息 : “Star Wars” 是 由 George Lucas 导 演 ，Gary Kurtz 制 作 。 
b) 在 图 4-19 的 基础 上 增加 关于 Empire Strikes Back 和 Return of the Jedi 这 两 部 影片 的 信 
息 ， 其 中 Carrie Fisher 和 Mark Hamill 参 演 了 这 些 影片 。 
9 在 (b) 的 基础 上 增加 制 片 厂 福克斯 Fox) 的 信息 ， 并 包括 该 制 片 厂 地 址 
( Hollywood )。 
* 习题 4.6.2 如 何 将 习题 2.1.1 中 的 银行 与 客户 数据 用 半 结 构 化 模型 表示 。 
习题 4.6.3 如何 将 习题 2.1.3 中 的 队员 、 球 队 和 球迷 的 数据 用 半 结 构 化 模型 表示 。 
习题 4.6.4 如 何 将 习题 2.1.6 中 的 家 谱 数据 用 半 结 构 化 模型 表示 。 
*! 习题 4.6.5 BE/R 模 型 和 半 结 构 化 模型 都 是 图 形 化 的 ( 使 用 了 节点 、 标 签 以 及 节点 间 的 连接 )， 
但 是 这 两 个 模型 有 一 个 本 质 的 区 别 ， 请 指出 这 个 区 别 。 


4.7 XML 及 其 数据 模型 


XML (扩展 标记 语言 ) 是 一 个 基于 标签 的 用 于 标记 文档 的 符号 ， 很 像 大 家 都 熟悉 的 HTML 
(或 者 SGML )。 一 个 文档 (document ) 不 过 是 一 个 包含 许多 字符 的 文件 。 但 是 ， 尽 管 HTML 中 
的 标签 定义 了 文档 中 信息 的 表示 方式 (如 哪 部 分 信息 用 斜体 ， 一 张 表 的 记录 是 什么 等 )， 而 文 
档 中 子 字符 串 的 意义 却 定义 在 XML 的 标签 中 。 

这 一 节 ， 介绍 XML 的 基本 原理 。 它 与 4.6 节 给 出 的 半 结 构 数 据 的 图 形 有 相同 结构 ， 特 别 是 
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其 标签 的 功能 与 半 结 构 化 数据 图 中 的 弧 功 能 相同 。 接 下 来 介绍 DTD (文档 类 型 定义 )， 这 是 一 
种 形式 灵活 的 设计 模式 ， 可 以 用 于 使 用 了 XML 标签 的 文档 。 
4.7.1 语义 标签 

XML 中 标签 是 用 尖 括 号 ， 如 < . . . > ， 括 起 来 的 文本 ， 这 与 HTML 中 一 样 。 而 且 ， 如 同 
HTML, 一 般 情况 下 标签 成 对 出 现 : 有 一 个 开始 标签 形 如 <F00>， 和 一 个 配对 的 结束 标签 形 如 
</FO0>。HTML 中 可 以 有 单个 出 现 的 标签 ， 如 分 段 用 的 <P>，XML 中 不 允许 这 样 。 当 标签 在 
配对 的 开始 - 结束 中 出 现时 ， 还 有 另外 一 个 要 求 ， 其 开始 -结束 对 必须 伦 套 ， 也 就 是 说 ， 在 
<FOO > 和 </FOO > 之 间 , 可 以 有 任意 数目 的 其 他 配对 , 但 是 如 果 该 配对 的 开始 是 在 这 个 域 中 ， 
则 其 结束 标签 也 必须 在 同一 个 域 中 出 现 。 

XML 可 以 使 用 于 两 种 不 同 的 模式 : 

1. AMIE (well-formed ) 的 XML 人 允许 用 户 自 定义 标签 ， 就 好 像 半 结构 化 数据 中 的 标签 
一 样 。 这 个 模式 与 半 结 构 化 模型 很 相似 : 没有 设计 模式 ， 文 档 中 的 标签 的 形式 任意 。 

2. 合法 (valid ) 的 XML 包 括 一 个 DTD， 它 定义 了 允许 使 用 的 标签 和 使 用 标签 的 语法 ( 如 
FRA )。 这 种 形式 的 XML 是 严格 模式 模型 ( 如 关系 模型 和 ODL 模 型 ) 与 无 模式 模型 ( 半 
结构 模型 ) 之 间 的 一 个 折衷 。 在 4.7.3 节 将 看 到 DTD 比 传统 的 模式 更 加 灵活 ， 比 如 DTD 可 以 定 
义 可 选 的 (或 者 是 丢失 的 ) 域 。 

4.7.2 格式 规范 的 XML 

这 种 形式 的 XML 的 最 简单 形式 是 一 个 XML 声 明和 一 个 根 标 签 ( root tag), 它 将 整个 文档 包 

含 在 内 。 形 式 如 下 : 


<? XML VERSION = "1.0" STANDALONE = "yes" ?> 
<BODY> 





</BODY> 


第 一 行 表明 文件 是 XML 文档。 参数 STaNDRALONE = “yes” 说 明 本 文档 没有 DTD， 即 本 





<? XML VERSION = "1.0" STANDALONE = "yes" ?> 
<STAR-MOVIE~DATA> 
<STAR><NAME>Carrie Fisher</NAME> 
<ADDRESS><STREET> 123 Maple St.</STREET> 
<CITY>Hollywood</CITY></ADDRESS> 
<ADDRESS><STREET>5 Locust Ln.</STREET> 
<CITY>Malibu</CITY></ADDRESS> 
</STAR> 
<STAR><NAME>Mark Hamill</NAME> 
<STREET>456 Oak Rd.</STREET><CITY>Brentwood</CITY> 
</STAR> 
<MOVIE><TITLE>Star Wars</TITLE><YEAR>1977</YEAR> 
</MOVIE> 
</STAR-MOVIE-DATA> 














图 4-21 一 个 关于 电影 和 影星 的 XMI 文 档 


例 4.28 ”图 4-21 是 一 个 与 图 4-19 基 本 对 等 的 XML 文 档 。 根 标签 是 STAR-MOVIE-DATA。 图 
中 看 到 有 两 个 用 标签 对 <sTAR> 和 </STAR> 括 起 来 的 段 ， 其 中 包含 影星 名 字 的 子 段 。 一 个 是 关 
于 Carrie Fisher， 它 有 两 个 用 <ADDRESS> 和 < /ADDRESS> 括 起 来 的 子 段 ， 每 段 都 包含 她 的 一 个 
住址 的 信息 。Mark Hamill 的 子 段 只 用 了 一 个 关于 街道 和 城市 的 子 段 ， 而 没有 使 用 <ADDRESS> 
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标签 。 图 4-19 中 也 有 这 个 差别 。 
注意 ， 图 4-21 的 文档 并 不 表现 电影 和 影星 之 间 的 联系 starsIn。 但 是 可 以 将 信息 放 在 影星 
的 段 中 ， 如 : 


<STAR><NAME>Mark Hamill</NAME> 
<STREET>0ak</STREET><CITY>Brentwood</CITY> 
<MOVIE><TITLE>Star Wars</TITLE><YEAR>1977</YEAR></MOVIE> 
<MOVIE><TITLE>Empire</TITLE><YEAR> 1980</YEAR></MOVIE> 
</STAR> 
不 过 这 种 方式 导致 元 余 。 由 于 影片 信息 是 重复 地 出 现在 所 有 参 演 的 影星 的 信息 中 ， 这 里 仅 
仅 包含 了 该 影片 的 键 信息 ， 即 电影 名 字 和 年 份 ， 这 不 是 实际 地 表示 宛 余 的 例子 。4.7.5 节 会 看 到 
XML 在 一 个 本 质 上 是 树 形 结构 的 标签 系统 中 ， 如 何 处 理 这 个 问题 。 口 


4.7.3 文档 类 型 定义 (DTD) 

为 了 让 计算 机 自动 处 理 XML 文档， 需要 类 似 于 设计 模式 的 信 息 。 也 就 是 说 ， 须 要 指明 哪 
些 标签 可 以 出 现在 文档 集中 ,标签 如 何 被 媒 套 。 这 种 模式 的 描述 是 使 用 一 组 类 似 于 语法 的 规则 
集 ， 称 之 为 文档 类 型 定义 (document type definition )， 或 称 为 DTD。 使 用 DTD 主 要 是 考虑 到 ， 
需要 共享 数据 的 公司 或 者 团体 可 以 通过 创建 各 自 的 DTD 来 展示 其 标签 的 语义 。 例 如 可 以 使 用 一 
个 DTD 来 描述 蛋白 质 ， 也 可 能 使 用 一 个 DTD 来 描述 采购 和 销售 ， 等 等 。 

DTD 的 基本 结构 是 : 


<!DOCTYPE root-tag [ 
<!ELEMENT element-name (components) > 
more elements 


]> 

其 中 根 标签 与 其 配对 的 结束 标签 之 间 包 括 所 有 符合 该 DTD 定 义 规则 的 整个 文档 。 元 素 
(element) 有 一 个 名 字 和 括号 括 起 来 的 一 些 组 件 ， 名 字 用 于 标签 ， 在 其 对 应 的 XML 文档 中 ， 该 
标签 包含 的 区 域 就 是 元 素 代表 的 内 容 。 括 号 中 的 组 件 代 表 的 是 元 素 中 可 以 或 者 必须 出 现 的 标签 。 
对 每 个 组 件 有 确切 要 求 的 定义 方式 将 很 快 介绍 。 

有 一 个 很 重要 的 特例 。 元 素 名 字 后 面 的 ( #PCDATA ) 意味 着 元 素 后面 的 是 值 是 文本 ， 其 
中 不 再 含有 标签 。 

例 4.29 ”图 4-22 中 是 关于 影星 的 一 个 DTDs ， 其 名 字 和 最 外 层 的 标签 是 STARS (XML 与 
HTMLIL 一 样 都 是 大 小 写 无关 的 ， 所 以 sTARS 就 是 根 标 签 )。 第 一 个 元 素 定义 是 说 ， 在 标签 对 
<STARS></STARS> 之 间 可 能 会 发 现 零 或 多 个 STAR 标 签 ， 每 对 STAR 标 签 间 的 内 容 都 对 应 一 位 
影星 ， 其 中 + 号 代表 “ 零 或 多 个 "， 也 就 是 任意 多 个 。 

第 二 个 元 素 是 STAR， 声 明 表 示 它 包含 3 个 子 元 素 :， NAME 、ADDRESS 和 MOVIES。 它 们 必 
须 出 现 ， 而 且 必 须 以 这 个 次 序 出 现 。ADDRESS 后 面 的 + 号 表示 “一 个 或 多 个 "， 也 就 是 说 ， 对 
于 一 位 影星 ， 可 以 有 一 个 或 者 多 个 地 址 存在 。NAME 被 定义 为 “PCDATA”， 即 为 文本 。 第 四 个 
元 素 是 地 址 元 素 ， 它 由 street 和 city 两 个 字段 顺序 构成 。 

MOVIES 元 素 被 定义 为 可 以 有 零 个 或 者 多 个 MOVIE (* 的 意义 是 任意 多 个 )。MOvVIE 元 素 有 
titie 和 year 两 个 字段 ， 都 是 文本 类 型 。 图 4-23 是 与 图 4-22 中 的 DTD 相 符合 的 文档 的 例 
子 。 l o 


O 注意 ,图 4-21 中 的 影星 和 电影 数据 不 符合 这 个 DTD。 
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<!DOCTYPE Stars [ 
<!ELEMENT STARS (STAR*)> 
<!ELEMENT STAR (NAME, ADDRESS+, MOVIES)> 
<!ELEMENT NAME (#PCDATA)> 
<!ELEMENT ADDRESS (STREET, CITY)> 
<!ELEMENT STREET (#PCDATA)> 


<!ELEMENT CITY (#PCDATA)> 
<!ELEMENT MOVIES (MOVIE*)> 
<!ELEMENT MOVIE (TITLE, YEAR)> 
<!ELEMENT TITLE (#PCDATA)> 
<!ELEMENT YEAR (#PCDATA)> 





图 4-22 影星 文档 的 DTD 


E 元 素 的 组 成 通常 是 一 些 其 他 元 素 ， 这 些 元 素 必须 在 标签 对 <E></ E> 中 出 现 ， 有 一 些 操 作 
符号 可 以 控制 元 素 出 现 的 次 数 。 

1.* 号 表示 该 元 素 可 以 出 现任 意 多 次 ， 包 括 零 次 。 

2. + 号 表示 该 元 素 可 以 出 现 一 次 或 者 多 次 。 

3. ? 号 表示 该 元 素 只 可 以 出 现 零 次 或 一 次 。 

4. 符号 | 可 以 在 元 素 之 间或 者 在 用 括号 括 起 来 的 元 素 组 之 间 出 现 ， 用 于 表示 “RE”, B 
么 是 符号 | 左边 的 元 素 (组 ) 要 么 是 符号 | 右边 的 元 素 (组 ) EA, 但 是 不 能 同时 出 现 。 例 如 
表达 式 (#PCDATA | (STREET CITY )) 作为 ADDRESS 元 素 的 组 成 意味 着 地 址 可 以 是 简单 文 
本 ,或 者 是 由 street 和 city 分 量 构 成 。 


<STARS> 
<STAR><NAME>Carrie Fisher</NAME> 
<ADDRESS><STREET>123 Maple St.</STREET> 
<CITY>Hollywood</CITY></ADDRESS> 
<ADDRESS><STREET>5 Locust Ln.</STREET> 
<CITY>Malibu</CITY></ADDRESS> 
<MOVIES><MOVIE><TITLE>Star Wars</TITLE> 
<YEAR>1977</YEAR></MOVIE> 
<MOVIE><TITLE>Empire Strikes Back</TITLE> 
<YEAR> 1980</YEAR></MOVIE> 
<MOVIE><TITLE>Return of the Jedi</TITLE> 
<YEAR>1983</YEAR></MOVIE> 
</MOVIES> 
</STAR> 
<STAR><NAME>Mark Hamill</NAME> 
<ADDRESS><STREET>456 Oak Rd.<STREET> 
<CITY>Brent wood</CITY></ ADDRESS> 
<MOVIES><MOVIE><TITLE>Star Wars</TITLE> 
<YEAR>1977</YEAR></MOVIE> 
<MOVIE><TITLE>Empire Strikes Back</TITLE> 
<YEAR>1980</YEAR></MOVIE> 
<MOVIE><TITLE>Return of the Jedi</TITLE> 
<YEAR>1983</YEAR></MOVIE> 
</MOVIES> 
</STAR> 
</STARS> 


图 4-23 与 图 4-22 中 的 DTD 对 应 的 文档 例子 





4.7.4 使 用 DTD 
若 要 一 个 文档 与 一 个 特定 的 DTD 相 一 致 ， 可 以 使 用 如 下 的 任 一 种 方法 : 
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a) 在 文档 之 前 包含 DTD。 

b) 在 开始 行 引 用 DTD。DTD 必 须 在 文件 系统 中 分 开 存 放 ， 处 理 文档 的 应 用 程序 应 当 可 以 
访问 到 。 

例 4.30 下 面 是 图 4-23 中 文档 要 引用 图 4-22 中 DTD 时 ， 必 须 增加 的 内 容 。 


<?XML VERSION = "1.0" STANDALONE = "no"?> 
<!DOCTYPE Stars SYSTEM "star.dtd"> 


参数 STANDALONE =“no” 表 示 使 用 了 DTD。 以 前 的 例子 中 这 个 参数 的 值 为 “yes”， 因 
为 那 时 不 想 使 用 DTD。DTD 文 件 的 位 置 在 :DOCTYPE 子 句 中 给 出 ， 其 中 关键 字 sYsTEM 后 面 的 
文件 名 就 是 DTD 的 位 置信 息 。 口 


4.7.5 属性 列表 

XML 文 档 与 半 结 构 化 数据 之 间 有 一 种 很 强 的 联系 。 假 设 对 于 文档 中 的 标签 对 <T> 和 </T>， 创 
建 一 个 节点 *， 而 对 于 嵌 在 其 中 的 标签 对 <5> 和 </S> ( $ 与 7 之 间 不 再 有 其 他 的 标签 层 )， 画 一 条 标 
签 为 5 的 从 节点 n 到 5 标签 对 的 弧 ， 这 样 可 以 得 到 一 个 本 质 上 与 文档 的 结构 一 致 的 半 结 构 化 数据 。 

但 是 反 过 来 就 没有 这 样 的 对 应 如 果 仅 仅 使 用 到 现在 为 止 学 习 到 的 XML 的 话 )。 在 XML 中 ， 
需要 一 种 方式 来 表示 有 多 条 弧 指 向 元 素 实例 。 显然 无 法 将 一 个 标签 对 嵌 套 在 一 个 以 上 的 标签 对 中 ， 
因为 ， 嵌 套 不 足以 表达 一 个 节点 有 多 个 前 驱 节 点 的 情况 。XML 中 还 有 另外 一 些 特性 ， 如 :， 标签 
内 的 属性 、 标 识 符 (ID ) 和 标识 的 引用 (DREF) 等 ， 能 够 表示 所 有 的 半 结 构 化 数据 。 

开始 标签 可 以 有 属性 ， 这 些 属性 出 现在 标签 中 ， 这 与 HTML 中 的 <A HREF = .. .> 形式 
类 似 。 保 留 字 !ATTLI ST 声明 了 元 素 的 一 列 属性 及 其 类 型 。 属 性 的 一 种 典型 用 法 是 将 值 与 标签 
联结 起 来 ， 这 种 方式 与 使 用 类 型 为 PCDATA 的 子 标签 可 以 达到 同样 的 目的 。 

属性 另 一 个 重要 的 用 途 就 是 表示 一 个 非 树 型 的 半 结 构 化 数据 。 类 型 为 E 的 元 素 的 ID 属 性 的 
值 ,将 惟一 地 标识 每 个 由 标签 对 <E> 和 </E> 包 含 的 段 。 用 半 结 构 的 说 法 就 是 :ID 为 节点 提供 了 
一 个 独特 的 名 字 。 

其 他 的 属性 可 以 被 声明 为 TPREF， 其 值 为 与 本 标签 表示 的 内 容 相关 的 其 他 标签 的 ID 。 只 要 
给 标签 实例 一 个 值 为 v 的 ID, 给 另 一 个 标签 实例 一 个 值 为 "的 IDREF, 就 可 以 有 效 地 给 出 一 个 弧 ， 
从 前 者 出 发 到 后 者 结束 。 下 面 的 例子 展示 了 声明 ID 和 IDREF 的 句法 ， 以 及 在 数据 中 使 用 它们 
的 重要 性 。 


<!DOCTYPE Stars-Movies [ 
<!ELEMENT STARS-MOVIES (STAR* MOVIE*)> 
<!ELEMENT STAR (NAME, ADDRESS+)> 
<!ATTLIST STAR 
starId ID 
starredIn IDREFS> 
<!ELEMENT NAME (#PCDATA)> 
<!ELEMENT ADDRESS (STREET, CITY)> 
<!ELEMENT STREET (#PCDATA)> 


<!ELEMENT CITY (#PCDATA)> 
<!ELEMENT MOVIE (TITLE, YEAR)> 
<!ATTLIST MOVIE 
movield ID 
starsOf IDREFS> 
<!ELEMENT TITLE (#PCDATA)> 
<!ELEMENT YEAR (#PCDATA)> 
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$4.31 ”图 4-24 展 示 了 一 个 修改 过 的 DTD ， 其 中 影星 和 电影 的 地 位 相同 。ID-IDREF 用 于 
描述 电影 和 影星 之 间 的 多 对 多 联系 。 类 似 地 ， 图 4-19 中 节点 电影 和 节点 影星 之 间 的 弧 也 描述 了 
多 对 多 的 联系 。 根 标签 的 名 字 变 为 STARS-MOVIES， 元 素 为 一 系列 的 影星 加 上 一 系列 的 电影 。 

影星 不 再 有 表示 电影 集合 的 子 元 素 ( 如 图 4-22 )， 其 属性 只 包括 名 字 和 地 址 。 在 <STAR> 标 
签 中 ， 可 以 看 到 一 个 类 型 为 ID 列表 的 属性 starredIn。 注 意 ，starredIn 的 类 型 是 IDRERFS ， 
结尾 的 8 表示 这 是 一 个 ID 的 列表 。 

<STAR> 标 签 还 有 一 个 属性 starId， 其 类 型 为 TD。 该 属性 的 值 可 能 会 被 <MOVIE> 标 签 引 
用 ， 以 表示 影片 中 的 影星 。 在 图 4-24 的 MOVIE 属 性 列表 中 ， 有 一 个 类 型 为 TD 的 novieTa 属 性 ， 
这 是 starredIn 标 签 的 值 的 来 源 。 对 称 地 ，MOVIE 的 starsof 属 性 是 影星 的 ID 列表 。 

图 4-25 是 一 个 符合 图 4-24 中 DTD 的 例子 。 它 很 像 图 4-19 中 的 半 结 构 化 数据 ， 不 过 它 包含 了 
更 多 的 数据 (有 3 部 电影 而 不 是 一 部 电影 )。 惟 一 的 结构 上 的 差别 在 于 ， 所 有 的 影星 都 有 一 个 
ADDRESS 子 元 素 ， 就 算 只 有 一 个 地 址 也 如 此 。 而 图 4-19 中 ， 表 示 Mark Hamill 的 节点 只 有 street 
和 city 节 点 。 口 


<STARS-MOVIES> 
<STAR starld = "cf" starredIn = "sw, esb, rj'> 
<NAME>Carrie Fisher</NAME> 
<ADDRESS><STREET>123 Maple St.</STREET> 
<CITY>Hollywood</CITY></ADDRESS> 
<ADDRESS><STREET>5 Locust Ln.</STREET> 
<CITY>Malibu</CITY></ADDRESS> 
</STAR> 
<STAR starId = "mh" starredIn = "sw, esb, rj"> 
<NAME>Mark Hamill</NAME> 
<ADDRESS><STREET>456 Oak Ad.<STREET> 
<CITY>Brentwood</CITY></ADDRESS> 
</STAR> 


<MOVIE movield = "sw" starsOf = "cf, mh"> 
<TITLE>Star Wars</TITLE> 
<YEAR>1977</YEAR> 


</MOVIE> 

<MOVIE movieId = "esb" starsOf = "cf, mh"> 
<TITLE>Empire Strikes Back</TITLE> 
<YEAR>1980</YEAR> 

</MOVIE> 

<MOVIE movield = "rj" starsOf = "cf, mh"> 
<TITLE>Return of the Jedi</TITLE> 
<YEAR>1983</YEAR> 

</MOVIE> 

</STARS-MOVIES> 


图 4-25 符合 图 4-24 中 的 DTD 的 文档 例子 





4.7.6 习题 
习题 4.7.1 将 以 下 情况 增加 到 图 4-25 中 : 
* a) Harrison Ford 同 样 出 演 了 图 中 提 到 三 部 影片 ， 另 外 他 还 出 演 了 电影 Wimess ( 1985 )。 
b) Carrie Fisher 同 样 出 演 了 影片 Hannah and Her Sisters ( 1985 )o 
c) Liam Neeson 出 演 影片 The Phantom Menace (1999 )。 
* 习题 4.7.2 为 习题 2.1.1 中 银行 和 客户 的 典型 数据 设计 一 个 DTD。 
习题 4.7.3 为 习题 2.1.3 中 队员 、 球 队 和 球迷 的 典型 数据 设计 一 个 DTD。 
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习题 4.7.4 ”为 习题 2.1.6 中 家 谱 的 典型 数据 设计 一 个 DTD。 
4.8 小 结 


。 对 象 定义 语言 (object definition language): 该 语言 用 于 面向 对 象 方式 描述 数据 库 的 模式 
设计 。 用 户 可 以 定义 类 ， 它 有 三 种 特性 : 属性 、 方 法 和 联系 。 

*ODLRA: ODL 中 的 联系 必须 是 二 元 的 。 它 在 两 个 类 (联系 的 两 端 ) 中 通过 名 字 来 声明 
( 同时 声明 其 反 向 联系 )。 联 系 可 以 是 多 对 多 、 多 对 一 或 者 一 对 一 的 ， 这 取决 于 联系 的 类 
型 是 被 声明 为 单个 对 象 还 是 对 象 的 集合 。 

。ODL 的 类 型 系统 : ODL 运 行 自 定义 类 型 ， 从 类 名 和 原子 类 型 开始 使 用 类 型 构建 器 : 结构 、 
集合 、 包 、 链 表 、 数 组 和 字典 构建 器 。 

。 范 围 (extent ): 一 个 类 可 以 有 一 个 范围 ， 它 是 当前 数据 库 中 存在 的 所 有 的 类 的 对 象 的 集 
合 。 因 而 范围 与 关系 模型 中 的 关系 相对 应 ， 而 类 则 对 应 于 关系 的 设计 模式 。 

。ODL 中 的 键 : ODL 中 键 是 可 选 的 。 用 户 可 以 定义 一 个 或 者 更 多 的 键 。 但 是 由 于 每 个 对 象 
都 有 一 个 对 象 标识 符 ， 所 以 ODL 的 实现 系统 可 以 区 别 不 同 的 对 象 ， 就 算 对 象 所 有 的 属性 
都 有 相同 的 值 时 也 如 此 。 

。 将 ODL 设 计 转 化 为 关系 设计 : 如 果 只 把 ODL 作 为 一 种 设计 语言 ， 最 终 的 结果 将 转化 为 关 
系 的 话 ， 最 简单 的 方式 是 为 类 的 每 个 属性 都 创建 一 个 关系 ， 为 每 对 联系 也 都 创建 一 个 关 
系 。 不 过 ， 也 可 以 把 一 个 多 对 一 的 联系 与 “多 ”的 类 的 属性 的 关系 结合 起 来 。 对 于 没有 
键 的 类 ， 必 须 为 其 创建 新 的 可 以 充当 键 的 属性 。 

“对 象 关系 模型 : 与 ODL 这 样 纯粹 的 面向 对 象 数 据 库 模 型 类 似 的 ， 是 扩展 关系 模型 ( 包含 
面向 对 象 的 一 些 主 要 特性 ) 而 得 到 的 对 象 关 系 模型 。 这 些 扩展 包括 了 拼 套 的 关系 (支持 
关系 的 复杂 类 型 的 属性 ， 包 括 将 关系 转化 为 类 型 )。 其 他 的 扩展 有 : 定义 类 型 的 方法 ， 以 
及 通过 引用 类 型 使 一 个 元 组 具有 引用 另 一 个 元 组 的 能 力 。 

“。 半 结构 化 数据 : 这 种 模型 中 ， 数 据 使 用 图 形 来 表示 。 节 点 类 似 于 对 象 或 者 是 对 象 的 属性 
的 值 ， 带 标签 的 弧 可 以 将 对 象 与 它 的 属性 值 和 由 联系 连接 的 其 他 对 象 相连 接 。 

e XML; 它 是 一 个 WWW Consortium 制 定 的 标准 。 它 在 文档 (文本 文件 ) 中 实现 了 半 结 构 。 
节点 对 应 于 文本 的 段 ，( 有 些 ) 带 标 签 的 弧 在 XML 中 使 用 成 对 出 现 的 标签 来 表示 。 

e XML 中 的 标识 符 和 引用 : 为 了 表示 非 树 形 结构 的 图 ，XML 人 允许 在 标签 对 的 开始 标签 中 使 
用 类 型 ID 和 TDREF。 标 签 〈 与 半 结 构 化 数据 的 一 个 节点 对 应 ) 可 以 有 一 个 标识 符 ， 该 标 
识 符 可 以 在 其 他 的 标签 中 使 用 ， 以 建立 一 个 连接 (EET )。 
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第 5 章 关系 代数 


这 一 章 开 始 学 习 关 于 数据 库 编 程 的 设计 ， 即 用 户 如 何 对 数据 库 进 行 查询 以 及 修改 数据 库 的 
内 容 等 。 重 点 是 对 于 关系 数据 库 的 讨论 ， 特 别 是 那些 用 于 关系 代数 查询 的 符号 。 

尽管 面向 对 象 的 数据 库 语 言 ODL 在 原则 上 可 以 执行 任何 数据 操作 ， 而 E/R 模 型 不 提供 有 效 
的 途径 来 操作 数据 ,但 是 关系 模型 的 数据 库 已 经 形成 了 数据 操作 的 “标准 ”操作 集 。 这 些 操 作 
并 不 是 像 其 他 编程 语言 那样 是 “图 灵 完 全 的 ”， 因 此 ， 有 些 操作 在 关系 代数 中 不 能 完成 ， 但 是 
在 ODL 方 法 中 用 C++ 实现 。 这 些 并 不 是 关系 数据 模型 或 关系 代数 的 缺点 ， 因 为 限制 数据 库 操作 
范围 使 得 我 们 可 以 使 用 任何 高 级 的 语言 ( 如 SQL ) 来 优化 查询 。 在 第 6 章 中 将 要 介绍 的 SQL 语 
言 就 是 这 种 语言 。 

本 章 从 介绍 关系 代数 的 操作 开始 。 这 类 代数 形式 地 应 用 于 元 组 集 ， 即 关系 。 可 是 ， 商 业 
数据 库 管理 系统 (DBMS) 使 用 的 关系 模型 稍微 有 些 不 同 ， 是 用 包 而 不 是 集合 。 也 就 是 说 ， 
关系 中 可 以 含有 重复 的 元 组 。 虽 然 把 关系 代数 看 成 是 集合 代数 有 好 处 ， 但 是 ， 人 们 仍然 需要 
对 关系 代数 操作 结果 中 重复 出 现 的 元 组 非常 小 心 。 在 本 章 的 最 后 一 节 ， 将 进一步 考虑 怎样 约 
束 关 系 的 问题 。 

下 面 的 几 章 将 介绍 现在 常用 的 一 些 商用 数据 库 管 理 系统 使 用 的 语言 。 关 系 代数 的 所 有 操作 
都 用 SQL 数据 库 查 询 语 言 来 实现 ，SQL 将 在 第 6 章 中 介绍 。 这 些 代数 操作 同样 在 OQL 语 言 当 中 
出 现 ，OQL 语 言 是 一 种 面向 对 象 的 查询 语言 ， 它 建立 在 ODL 模 型 的 基础 上 ， 第 9 章 将 介绍 有 关 
它们 的 情况 。 


5.1 一 个 数据 库 模式 的 例子 


在 继续 探讨 有 关 关 系 模型 数据 库 编 程 的 话题 之 前 , 有 必要 为 将 要 使 用 的 例子 建立 一 个 模式 。 
所 造 的 例子 是 从 movie、stars、studio 例 子 中 得 出 。 这 很 像 3.6 节 得 到 的 规范 化 关系 。 但 是 ， 例 
子 中 有 一 些 以 前 没有 的 属性 ， 另 外 MovieExec 关 系 也 是 以 前 没有 提 到 的 。 这 样 做 的 目的 是 为 
了 能 学 习 更 多 的 数据 类 型 和 表示 数据 的 方法 。 图 5-1 给 出 了 这 个 模式 。 

该 模式 含有 五 个 关系 。 每 个 关系 的 属性 和 属性 的 域 都 在 图 中 列 出 ， 并 且 用 大 写字 母 表示 键 属 
性 《正文 中 仍 使 用 小 写字 母 )。 比 如 说 ， 关 系 SEtarsIn 由 三 个 属性 组 成 ， 关 系 Movie 有 六 个 属性 : 
title 和 year 共 同 组 成 了 关系 Movie 的 键 。 属 性 tit1le 是 字符 串 类 型 ， 而 year 是 整 型 。 

跟前 面 的 模式 相 比 ， 这 个 模式 所 作 的 主要 改动 有 : 

* 每 一 个 电影 制 片 人 有 一 个 授权 证 书号 码 ， 这 个 授权 号 码 是 具有 惟一 性 的 整 型 数 。 授 权 书 
可 以 想像 为 由 一 个 外 部 的 权利 机 构 〈 或 许 是 一 个 电影 制 片 人 的 专门 登记 处 ， 或 许 是 一 个 
其 他 的 协会 ) 来 维护 。 

“用 授权 证 书号 码 作为 电影 制 片 人 的 键 ， 由 于 影星 并 不 一 定 具有 这 个 授权 ， 所 以 仍然 用 
name 作 影星 的 键 。 虽 然 这 样 的 设计 可 能 跟 实 际 情 况 有 所 不 同 ， 比 如 两 个 影星 可 能 有 同样 
的 名 字 , 但 是 可 以 以 此 来 解释 一 些 特殊 的 操作 。 

。 电 影 制 片 人 是 电影 的 一 个 属性 ， 用 producterc# 来 表示 ， 表 示 该 电影 制 片 人 的 授权 证 
书号 码 。 电 影 制 片 人 被 认为 是 电影 的 执行 者 ， 或 者 是 工作 室 主管 。 在 MovieExc 关 系 中 
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还 可 以 有 其 他 的 执行 者 。 

。Movie 的 属性 Eilmrype 被 从 枚 举 型 改 为 布尔 型 ， 称 做 incolor ， 该 属性 取 真 值 表 示 彩 
色 片 ， 取 假 值 表示 黑白 片 。 

“。 影 星 关系 中 增加 了 性 别 属 性 gendqer ， 它 属于 字符 串 类 型 ,“M” 代 表 男 性 ; “F” 代 表 
女性 。 影 星 关系 中 还 增加 了 生日 属性 ， 它 的 类 型 是 日 期 型 。 日 期 型 是 很 多 商用 的 数据 库 
支持 的 特殊 类 型 ， 其 实 也 可 以 简单 地 把 它 看 成 是 字符 串 。 

。 所 有 的 地 址 都 用 字符 串 类 型 string 来 表示 ， 而 不 是 用 “街道 ”和 “城市 ”数据 对 组 成 。 目 
的 是 方便 不 同 的 关系 中 的 地 址 的 比较 ， 同 时 也 可 以 简化 对 不 同 关 系 中 地 址 的 操作 。 

Movie( 
TITLE: string, 
YEAR: integer, 
length: integer, 
inColor: boolean, 


studioName: string, 
producerC#: integer) 


StarsIn( 
MOVIETITLE: string, 
MOVIEYEAR: integer, 
STARNAME: string) 


MovieStar ( 
NAME: string, 
address: string, 
gender: char, 
birthdate: date) 


MovieExec( 
name: string, 
address: string, 
CERT#: integer, 
netWorth: integer) 


Studio ( 
NAME: string, 
address: string, 
presC#: integer) 


图 5-1 关于 电影 的 数据 库 实例 





5.2 关系 代数 操作 


在 开始 学 习 关 系 上 操作 时 ， 首 先 应 该 学 习 一 种 称 做 关系 代数 (relational algebra) 的 特殊 代 
数 ， 包 括 一 些 从 给 定 的 关系 中 建立 新 的 关系 的 简单 却 具有 强大 功能 的 方法 。 当 给 定 的 关系 存 有 
数据 时 ， 新 得 到 的 关系 就 可 以 作为 原 有 关系 查询 的 结果 。 

关系 代数 的 发 展 已 经 历 了 一 段 历史 时 期 ， 下 面 的 叙述 将 大 致 跟踪 这 段 历史 。 最 初 ， 关 系 代 
数 是 由 TCodd 提 出 ， 它 是 一 个 元 组 集合 〈 即 关系 )， 能 用 来 进行 典型 的 基于 关系 的 查询 。 它 由 
集合 上 的 5 个 操作 组 成 : 并 ， 差 ， 笛 卡 儿 积 及 另外 两 种 不 太 常 见 的 操作 : 选择 和 投影 。 除 此 之 
外 ， 还 有 在 这 些 操作 之 上 定义 的 附加 操作 ， 其 中 各 种 join 操作 是 最 重要 的 。 









Bag 为 什么 比 Set 更 高 效 

有 一 个 简单 的 例子 可 以 说 明 为 什么 bag 的 实现 比 set 更 高 效 。 如 果 在 求 两 个 关系 的 并 
时 不 消除 重复 元 组 ，bag 方 法 则 就 是 直接 把 关系 复制 到 输出 ， 如 果 你 坚持 用 set 来 实现 的 
话 ， 就 必须 先 对 结果 中 的 元 组 排序 ， 或 者 使 用 其 他 相似 的 操作 ， 检 查 来 自 两 个 不 同 集合 
的 重复 元 组 ， 以 保证 得 到 的 结果 是 一 个 set。 


当 最 初 开发 关系 模型 的 DBMS 时 ,它们 的 查询 语言 大 多 以 关系 代数 作为 工具 。 但 为 了 提高 
效率 ， 这 些 系统 把 关系 看 做 是 包 (bag) 而 非 集合 〈set )。 这 就 是 说 ， 除 非 用 户 明 确 地 说 明 把 重 
复 的 元 素 减 少 为 一 个 ( 也 就 是 除去 重复 元 素 的 副本 )， 关 系 就 允许 重复 元 组 的 存在 。 这 样 ， 在 
5.3 节 中 将 研究 关于 包 的 这 些 操作 ， 看 看 都 需要 做 哪些 必要 的 改变 。 

对 于 商用 的 关系 模型 实现 来 说 ， 另 外 一 个 需要 的 改进 就 是 要 加 入 一 些 其 他 操作 。 最 重要 的 
是 加 入 了 聚合 操作 ， 比 如 求 某 一 个 列 的 平均 值 。 这 些 内 容 将 在 5.4 节 中 介绍 。 
5.2.1 关系 代数 基础 

通常 ， 一 门 代 数 ， 总 是 由 一 些 操作 符 和 一 些 原子 操作 数组 成 。 比 如 说 ， 算 术 代数 中 原子 操 
作 数 是 像 变 量 X 和 常量 15 这 样 的 操作 数 。 而 加 减 乘除 是 其 中 的 操作 符 。 任 何 一 门 代数 都 允许 把 
操作 符 作用 在 原子 操作 数 或 者 是 其 他 代数 表达 式 上 构造 表达 式 ( expression )， 一 般 地 ， 插 号 被 
用 来 组 合 操 作 符 和 操作 数 。 例 如 算术 中 有 表达 式 ， Ge+y)xz 和 (x+7)(y-3))4x0 

关系 代数 是 另外 一 门 代数 ， 它 的 原子 操作 数 是 : 

1. 代表 关系 的 变量 。 

2. 代表 有 限 关系 的 常量 。 

正 像 前 面 提 到 的 那样 ， 在 经 典 的 关系 代数 当中 ， 所 有 表达 式 的 操作 数 和 结果 都 是 集合 。 传 
统 关系 代数 的 操作 主要 有 以 下 四 类 ; 

a) 通常 的 关系 操作 : 并 、 交 、 差 。 

b) 除去 某 些 行 或 者 列 的 操作 。 选 择 是 消除 某 些 行 的 操作 ， 而 投影 是 消除 某 些 列 的 操作 。 

c) 组 合 两 个 关系 元 组 的 操作 。 包 括 有 “ 笛 卡 儿 积 运算 “(Cartesian product )， 该 操作 党 试 
两 个 关系 的 所 有 可 能 的 元 组 配对 方式 ， 形 成 一 个 关系 作为 结果 。 另 外 还 有 许多 连接 (join ) 操 
作 ， 它 是 从 两 个 关系 中 选择 一 些 元 组 配对 。 

d) EMA (renaming) 操作 。 不 影响 关系 中 的 元 组 ， 但 是 它 改变 了 关系 的 模式 。 即 ， 属 性 
的 名 称 或 者 是 关系 本 身 的 名 称 被 改变 。 

人 们 一 般 把 关系 代数 的 表达 式 称 为 查询 ( query )。 虽 然 到 目前 为 止 还 没有 更 多 表示 关系 代 
数 表达 式 的 符号 ， 但 是 应 该 熟悉 (a ) 类 操作 ， 知 道 “RUS” 是 关系 代数 表达 式 。 R 和 4 是 表示 
关系 的 原子 操作 数 ， 它 们 的 具体 元 组 未 知 。 这 个 操作 是 查询 R，5 中 所 有 元 组 的 并 集 。 
5.2.2 关系 中 的 集合 操作 

三 个 最 常用 的 集合 操作 是 : 并 (union), X (intersection), £ (difference), 这 里 假设 读 
者 已 经 熟悉 这 三 种 操作 。 下 面 是 这 些 操作 在 任意 集合 R 和 S 上 的 定义 ， 
* RUS， 表 示 关 系 R 和 S$ 的 并 ， 所 得 到 的 结果 关系 的 元 素 是 来 自 R 或 者 5 或 者 在 R 和 35 中 都 出 现 
过 ,但 是 对 于 最 后 一 种 情况 ， 结 果 关 系 中 的 这 个 元 素 只 出 现 一 次 。 
。RMS， 表 示 关 系 R 和 5 的 交 ， 就 是 同时 在 R 和 S$ 中 存在 的 元 素 的 集合 。 
*“R-S， 是 关系 R 和 5 的 差 ， 它 是 由 在 R 中 出 现 ， 但 是 不 在 S 中 出 现 的 元 素 构 成 的 集合 。 注 意 ， 
5-R 与 R-$ 不 同 ， 前 者 表示 由 只 在 5 中 出 现 但 不 在 R 中 出 现 的 元 素 构 成 的 关系 。 
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193 当 在 关系 上 应 用 这 些 操作 的 时 候 ， 需 要 对 关系 R 和 3 另外 加 些 条件 : 
1. R 和 $ 必 须 是 具有 同样 属性 集合 的 表 ， 同 时 ，R 和 5 的 各 个 属性 的 类 型 ( 域 ) 也 必须 匹配 。 
2. 在 做 相应 的 集合 操作 ( 指 并 、 交 、 差 ) 之 前 ，R 和 5 的 列 必须 经 过 排序 ， 这 样 保证 他 们 的 
属性 序 对 于 两 个 关系 来 说 完全 相同 。 
人 们 有 时 希望 对 具有 相同 属性 个 数 、 相 应 的 块 都 相同 、 但 是 只 有 不 同属 性 名 的 关系 进行 并 、 
交 和 差 运算 等 等 ， 这 时 候 ， 就 要 用 到 重 命名 (renaming) 操作 ， 对 这 两 个 关系 模式 修改 使 其 具 
有 相同 属性 名 。5.2.9 节 将 对 此 进行 介绍 。 


name | address gender | birthdate 




















Carrie Fisher | 123 Maple St., Hollywood | 了 9/9/99 
Mark Hamill 456 Oak Rd., Brentwood M 8/8/88 
Relation R 
name | address gender | birthdate 
Carrie Fisher | 123 Maple St., Hollywood F 9/9/99 
Harrison Ford | 789 Palm Dr., Beverly Hills | M 7/7/77 
Relation 9 
图 5-2 两 个 关系 


例 5.1 ”假设 我 们 有 两 个 关系 R 和 S 和 5.1 节 中 的 Moviestar 关 系 实例 。R 和 5 两 个 关系 实例 
如 图 5-2 所 示 ， 这 样 ， 他 们 的 并 运算 RU 5 的 结果 是 : 


name | address gender | birthdate 


Carrie Fisher | 123 Maple St., Hollywood F 9/9/99 
Mark Hamill 456 Oak Rd., Brentwood M 8/8/88 
Harrison Ford | 789 Palm Dr., Beverly Hills | M 7/7/77 
注意 ， 两 个 表 中 均 有 Carrie Fisher 出 现 ， 但 是 在 结果 中 却 仅 有 一 个 。 
RMS 的 运算 结果 是 : 
name address gender | birthdate 
194 Carrie Fisher | 123 Maple St., Hollywood | F 9/9/99 


现在 只 有 Carrie Fisher 出 更 ， 因 为 只 有 这 个 元 组 同时 在 两 个 关系 中 出 现 。 
R-S 是 ， 




















name address gender | birthdate 
Mark Hamill | 456 Oak Rd., Brentwood m | 8/8/88 
也 就 是 说 ，Fisher 和 Hamill 这 两 个 元 组 都 是 R-5 的 候选 元 素 , 但 是 Fisher 在 S 中 也 出 现 ，, 所 以 ， 
就 不 在 R-S 中 了 。 口 
5.2.3 投影 
投影 (projection ) 操作 用 来 从 关系 R 生 成 一 个 新 的 关系 ， 这 个 关系 只 包含 原来 关系 R 的 部 
分 列 。 表 达 式 my a. a (O 的 值 是 这 样 的 一 个 关系 : 它 只 包含 关系 R 属 性 41，A2，...，A4, 所 代 
表 的 列 。 结 果 关 系 模式 的 属性 集合 为 ，{ 41，A2，...，A, }， 习 惯 上 按 所 列 出 的 顺序 显示 。 
例 5.2 考虑 关系 Movie， 它 的 关系 模式 在 5.1 节 有 描述 。 图 5-3 给 出 了 关系 的 一 个 实例 。 投 
影 到 关系 前 三 个 属性 的 表达 式 是 : 





T title, yeartength ( Movie ) 


title year length | inColor | studioName | producerC# 


Star Wars 1977 | 124 true Fox 12345 
Mighty Ducks 1991 | 104 
Wayne’s World | 1992 | 95 


true Disney 67890 
图 $-3 关系 Movie 

















true Paramount | 99999 





所 得 到 的 结果 是 : 
title year | length 
Star Wars 1977 | 124 
Mighty Ducks 1991 | 104 
Wayne’s World | 1992 | 95 





另外 的 一 个 例子 是 用 表达 式 mco(Movie) 投 影 属 性 inColor。 结 果 是 一 个 单列 关系 : 





inColor 
true 
注意 这 里 只 有 一 个 元 组 ， 因 为 所 有 三 个 元 组 都 有 共同 的 jncolor 属 性 值 ， 在 关系 代数 集 
合 中 ， 重 复元 素 总 是 被 排除 。 口 


5.2.4 选择 

jit (selection ) 操作 应 用 到 关系 R 上 时 ， 产 生 原 关系 的 的 新 关系 。 结 果 关 系 的 元 组 必 
须 满足 某 个 涉及 R 中 属性 的 条 件 C。 这 个 操作 表示 为 : oc (R)。 结 果 关 系 和 原 关 系 有 着 相同 的 模 
A, 习惯 上 用 跟 原 关系 相同 的 顺序 列 出 这 些 属性 。 

C 是 某 个 类 型 的 条 件 表达 式 ， 它 与 人 们 熟悉 的 程序 设计 语言 条 件 表 达 式 类 似 。 例 如 : Java 
或 C 语 言 中 if 关 键 字 后 面 的 条 件 表达 式 。 所 不 同 的 是 C 中 的 操作 数 要 么 是 一 个 常量 要 么 是 R 的 一 
个 属性 。 假 设 : 是 R 中 的 任意 一 个 元 组 ， 把 代入 到 条 件 C 中 ， 如 果 代 入 的 结果 为 真 ， 那 么 这 个 元 
组 就 是 cc (R) 中 的 一 个 元 组 ， 否 则 此 元 组 不 在 结果 中 出 现 。 

例 5.3 关系 Movie 还 是 像 图 5-3 中 表示 的 那样 ， 那 么 表达 式 Gionwwsioo(Movie) 的 结果 是 : 








title | year | length | inColor | studioName | producerC# 
Star Wars 1977 | 124 true Fox 12345 
Mighty Ducks | 1991 | 104 true Disney 67890 


第 一 个 元 组 满足 表达 式 length >= 100, 因为 当 把 第 一 个 元 组 的 length 属 性 用 它 的 实际 值 124 代 
人 后 ， 它 满足 这 个 条 件 表达 式 124 宇 100。 用 同样 的 方法 知道 图 5-3 的 第 二 个 元 组 也 满足 这 个 表 
达 式 ， 所 以 也 应 该 包括 在 结果 当中 。 

第 三 个 元 组 的 length 属 性 值 是 95。 同 样 把 这 个 值 代入 到 表达 式 中 ， 得 到 : 95>100, BRIX 
个 表达 式 的 值 为 false。 因 此 ， 图 5-3 的 最 后 一 个 元 组 不 在 结果 集中 。 口 

例 5.4 ”假设 想 要 得 到 这 样 的 元 组 集合 : 在 关系 Movie 中 的 所 有 Fox 公 司 出 品 的 至 少 有 100 
分 钟 长 的 电影 。 就 必须 用 更 复杂 的 ， 包 含 AND 和 两 个 子 条 件 的 表达 式 来 实现 这 样 的 查询 。 这 个 
表达 式 可 以 写成 

CGOiengt> 100 aNDsdudioName =’ Fox’ (Movie) 
元 组 


title year | length | inColor | studioName | producerC# 
Star Wars | 1977 | 124 true Fox 12345 


124 BSE 


是 结果 关系 中 惟一 的 元 组 。 口 
5.2.5 BIL 

KERAS BF IL (MARA LAMAR ), 是 一 个 有 序 对 的 集合 ， 有 序 对 的 第 
一 个 元 素 是 关系 R 中 的 任何 一 个 元 组 ， 第 二 个 元 素 是 关系 $ 中 的 任何 一 个 元 组 ， 表 示 为 R x So 


当 R 和 5 都 是 关系 的 时 候 ， 积 本 质 上 仍 是 关系 。 AIB 
但 是 由 于 R 和 3 这 两 个 关系 的 属性 未 必 只 有 一 TT 
个 ， 所 以 结果 产生 了 更 长 的 元 组 ， 包 括 了 R 和 和 3 14 
5 中 的 所 有 属性 。 习 惯 上 ， 在 结果 中 关系 R 的 XBR 
属性 出 现在 关系 8 的 属性 的 前 面 。 

结果 关系 模式 是 R 和 5 关系 模式 的 并 ,但 BIC ID 
是 如 果 R 和 5 恰好 有 同样 的 属性 ， 就 需要 把 至 2 , i 
少 一 个 属性 名 更 改 成 不 同 的 名 称 。 为 了 使 意 g lioli 
义 清楚 ， 如 果 属 性 4 在 R 和 s 中 均 出 现 ， 则 结果 关系 5 
关系 模式 中 分 别 用 R.A 和 5S.4 表 示 来 自 R 和 5 的 
属性 。 A B | S.B 


例 5.5 ”为 了 简单 起 见 ， 利 用 一 个 抽象 例 
子 来 解释 积 操作 。 令 R 和 4 的 模式 和 元 组 如 图 
5-4 所 示 。 于 是 R x 5 就 有 如 图 所 示 六 个 元 组 。 
注意 这 里 是 怎样 把 每 一 个 R 中 的 元 组 跟 三 个 5 
中 的 元 组 分 别 配对 ， 因 为 属性 8 在 R 和 5 中 均 出 








现 ，R x 5 中 分 别 是 用 R.B 和 S$.B 表 示 。 其 他 几 Rx 5 的 结果 

个 属性 都 不 会 引起 混淆 ， 所 以 保持 原来 名 字 图 5-4 两 个 关系 和 它们 的 笛 卡 儿 积 
不 变 。 口 . 
5.2.6 自然 连接 


跟 积 相 比 ， 人 们 更 经 常 对 两 个 关系 做 连接 (join ) 操作 ， 连 接 时 相应 的 元 组 必须 在 某 些 方 
面 一 致 。 最 简单 的 就 是 所 谓 的 自然 连接 ( natural join )。 关 系 R 和 5S 的 自然 连接 表示 为 RS。 此 
操作 仅仅 把 在 R 和 4 模式 中 有 某 共 同属 性 ， 且 此 属性 有 相同 的 值 的 元 组 配对 。 举 例 来 说 : 假设 R 
和 4$ 的 模式 有 公共 属性 4 Az o An, AÈ R 
分 别 来 自 R 和 5 的 元 组 ， 则 当 且 仅 当 r 和 s 的 41， 一 -一 一 ” 

42，…，4" 属 性 值 都 一 样 时 ，r 和 * 才 能 配对 ， 作 
为 结果 关系 中 的 元 组 。 

如 果 把 r 和 s 连 接 作 为 RS 结果 的 元 组 ， 则 
这 个 元 组 被 称 为 连接 元 组 (joined tuple )。 连 接 
元 组 具有 R 和 3 连接 的 所 有 成 分 。 连 接 之 后 的 元 
组 跟 元 组 x 在 模式 R 的 所 有 属性 上 有 相同 值 ， 同 
样 ， 跟 s 在 模式 $S 的 所 有 属性 上 有 相同 的 值 。 一 
且 r 和 s 被 成 功 配 对 ， 那 么 连接 之 后 的 元 组 跟 原 来 的 两 个 元 组 在 相同 的 属性 上 有 相同 的 值 。 这 一 
点 在 图 5-5 中 可 以 清楚 看 到 。 

同样 要 注意 ， 这 里 所 说 的 连接 操作 跟 3.6.5 节 用 来 重组 关系 的 操作 一 样 。 后 者 重组 的 是 一 





连接 元 组 
图 $-5 连接 两 个 元 组 





个 被 映射 到 不 同属 性 集 上 的 关系 。 当 时 的 目的 是 要 解释 为 什么 BCNF 分 解 是 有 意义 的 。 在 5.2.8 
节 中 ， 还 将 要 看 到 另 一 个 用 到 自然 连接 的 例子 : 联合 两 个 关系 ， 以 便 进 行 跟 这 两 个 关系 都 相 
XHEK. 
例 5.6 图 5-4 中 关系 R 和 5 的 自然 连接 是 : 
A | B | CID 
1/2 J5 16 
334/17 8 
改 一 一 个 R 和 5 共同 的 属性 是 8。 只 要 在 属性 8 上 相同 的 元 组 就 可 以 成 功 连 接 。 如 果 这 样 的 话 ， 
结果 元 组 中 就 有 属性 4 (来自 R)，B (来 自 5 或 者 R)，C (EAS), D (HAS). 
在 这 个 例子 中 ，R 的 第 一 个 元 组 成 功 地 和 s 的 第 一 个 元 组 组 成 一 对 ;他 们 在 属性 8 上 有 共同 的 
值 2。 这 个 配对 产生 了 连接 结果 的 第 一 个 元 组 ; ( 1，2，5，6 )。 关系 R 的 第 二 个 元 组 只 可 以 跟 s 
的 第 二 个 元 组 配对 ， 结 果 是 (3，4，7，8 )。 注 意 ， 关 系 $ 的 第 三 个 元 组 不 能 跟 关系 R 的 任何 一 


个 元 组 配对 ， 所 以 不 在 结果 Reqa5 中 出 现 。 在 一 个 连接 当中 ， 如 果 一 个 元 组 不 能 和 另外 关系 中 
的 任何 一 个 元 组 配对 的 话 ， 这 个 元 组 就 被 称 为 悬挂 元 组 ( dangling tuple )。 口 


例 5.7 ”前 面 的 例子 并 没有 闹 明 自然 连接 操作 所 有 可 能 的 情况 。 例 如 ， 没 有 元 组 可 以 跟 超 
过 一 个 元 组 配对 成 功 ， 并 且 两 个 关系 模式 只 有 一 个 共同 属性 。 图 5-6 中 ， 有 另外 两 个 关系 和 T， 
他 们 的 关系 模式 有 共同 的 属性 5 和 C。 例 子 中 ， 一 个 元 组 可 以 与 另外 几 个 元 组 连接 。 

只 有 在 属性 8 和 C 上 一 致 的 元 组 才能 配对 成 功 。 这 样 ，U 的 第 一 个 元 组 可 以 和 Vv 的 第 一 和 第 
二 个 元 组 相连 接 。 而 U 的 第 二 和 第 三 个 元 组 和 Vv 的 第 三 个 元 组 配对 。 这 四 个 配对 的 结果 在 图 5-6 
中 给 出 。 口 


5.2.7 6 联接 
自然 连接 必须 根据 某 些 特定 的 条 件 来 把 元 


组 配对 。 虽 然 ， 相 等 的 公共 属性 是 关系 连接 最 -4|231C 
常见 的 基础 。 但 是 人 们 有 时 候 需 将 满足 其 他 条 JHH 
件 的 元 组 配对 。 为 此 目地 ， 就 有 了 相应 的 9 连 9 |7 |8 
接 操作 (theta-join )。 历 史上 6 是 指 任意 条 件 ， 关系 U 
但 现在 一 般 用 C 而 不 是 9 表示 这 个 条 件 。 
关系 R 和 关系 $ 的 6 联接 可 以 这 样 用 符号 来 B\C\|D 
表示 : RS。 这 个 操作 的 结果 是 这 样 构造 的 : ; E E 
1. 先 得 到 R 和 5$ 的 积 。 i 
2, 在 得 到 的 关系 中 寻找 满足 条 件 C 的 元 组 。 ABV 
就 像 在 积 操 作 中 一 样 ， 结 果 关系 的 模式 是 ALB 


模式 R 和 模式 $ 的 并 。 如 果 有 必要 的 话 ， 需 要 在 人 

重 名 的 属性 前 面 加 上 “R” RH “S” 112|13|15 
例 5.8 考虑 这 样 的 操作 Ua<py。 其 中 U 和 V S ; 8 | 10 

是 图 5-6 中 的 关系 。 这 里 必须 考虑 9 个 元 组 的 配 


对 方案 。 看 一 看 来 自 U 的 元 组 的 属性 4 是 不 是 比 
来 自 V 的 元 组 的 属 福 D 的 值 小 。U 的 第 一 个 元 组 图 5-6 关系 的 自然 连接 


— 


© 


ind 


126 RSF 


4 属性 值 是 1 ， 这 个 元 组 可 以 和 任何 来 自 Y 的 元 组 配对 。 但 是 第 二 和 第 三 个 元 组 的 4 属性 值 分 别 
是 6 和 9， 分 别 只 能 和 V 的 最 后 一 个 元 组 配对 。 这 样 ， 所 得 到 的 结果 关系 就 只 有 五 个 元 组 ， 即 是 
刚才 配对 成 功 的 那些 。 这 个 关系 在 图 5-7 中 给 出 。 口 


注意 ， 连 接 的 结果 关系 模式 是 由 所 有 的 六 个 属性 组 成 。 公 共 属 性 8B 和 C 前 面 加 了 关系 名 VU 和 
VY 以 示 区 别 ， 如 图 5-7 所 示 。8 连接 和 自然 连接 相 比 较 ， 后 者 把 公共 属性 合并 成 一 个 属性 ， 这 是 
由 于 参加 运算 的 两 个 元 组 可 以 配对 当 且 仅 当 它们 的 公共 属性 有 相同 的 值 。 但 是 在 9 连接 当中 ， 
并 不 能 保证 进行 比较 的 属性 有 相同 的 值 ， 因 为 它们 有 可 能 不 是 用 “=” 进 行 比较 。 


A|UB{UC|VB|V.C|D 
4 


5 

10 
10 
10 
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图 5-7 Uy 的 结果 


例 5.9 下面 是 关系 U 和 V 的 更 为 复杂 的 9 连接 ，U scp hpyvs V。 结 果 不 仅仅 要 求 U 
关系 元 组 的 4 属性 小 于 V 关 系 元 组 的 D 属 性 ， 而 且 U 和 V 元 组 的 8 属性 不 能 有 同样 的 值 。 这 里 只 有 
元 组 : 


A | U.B U.C | V.B| VC] D 


1 [2 [3 |7 Js | 10 
惟一 满足 两 个 条 件 ， 所 以 它 就 是 最 后 的 结果 。 口 


5.2.8 使 用 组 合 操作 生成 查询 . 

如 果 只 能 在 单个 或 者 两 个 关系 上 进行 一 个 操作 ， 那 么 关系 代数 就 不 那么 有 用 。 可 是 ， 如 同 
其 他 的 所 有 代数 一 样 ， 关 系 代数 允许 任意 复杂 的 表达 式 ， 其 操作 符 可 以 用 于 任何 关系 之 上 ， 这 
个 关系 既 可 以 是 某 个 给 定 关系 ， 也 可 以 是 操作 得 到 的 结果 关系 。 

可 以 在 子 表达 式 上 应 用 算 符 来 构造 新 的 关系 代数 表达 式 ， 必要 的 时 候 用 括号 把 操作 数 分 割 
开 。 也 可 以 用 表达 式 树 来 表示 这 种 表达 式 ， 虽然 这 种 表达 式 树 对 机 器 来 说 比较 难以 处 理 ， 但 是 
它 更 易于 理解 。 

例 5.10 ”考虑 例 3.24 中 分 解 的 Movie 关 系 。 假 设 人 们 想 知道 “由 Fox 制 作 的 片 长 至 少 100 分 
钟 的 电影 的 名 称 (tite) 和 制作 年 代 ( year ”。 计 算 该 查询 的 一 种 方法 是 ， 

1. 选择 length > 100 分 钟 的 Movie 关 系 中 的 
元 组 。 F itle, year 

2. 选择 studioName=“Fox” 的 Movie 元 组 。 

3. 计算 (1) 和 (2) 两 个 查询 结果 的 交集 。 N 


4. #8 (3) 得 到 的 关系 投影 到 title 和 year 
属性 上 。 一 N 


在 图 5-8 中 人 们 看 到 可 以 用 表达 式 树 来 表示 前 amet oto0 ° 
面 所 说 的 几 个 步 又。 两 个 选择 操作 的 节点 对 应 着 
第 一 和 第 二 步 。 交 操作 的 节点 对 应 第 三 步 ， 投 影 Movie Movie 
节点 是 第 四 步 。 图 5-8 关系 代数 表达 式 的 表达 式 树 


studioName = ‘Fox’ 


关系 代数 727 





习惯 上 用 线性 符号 来 表示 同样 的 表达 式 。 如 下 公式 
Tite, war(Oioer>loo(Movie)m Gindowamec Fox’ (MOVie)) 
表示 的 是 同一 个 表达 式 。 
经 常 地 ， 同 一 个 计算 可 用 多 个 不 同 的 关系 代数 表达 式 来 描述 。 例 如 ， 上 边 的 查询 可 以 用 逻 
辑 AND 操 作 来 替换 “ 交 ”。 即 


Tritte.veas (Otength=100 AND studioName =" Fox’ (Movie)) 


等 价 的 表达 式 和 查询 优化 
所 有 数据 库 系统 都 有 查询 应 答 系统 ， 其 中 许多 是 基于 接近 关系 代数 表达 能 力 的 语言 。 


这 样 ， 用 户 提交 的 查询 可 以 有 许多 等 价 表 达 式 〈equivalent expression) ( 即 只 要 给 出 同样 
的 操作 数 ， 这 些 表达 式 就 产生 同样 的 结果 )， 其 中 有 的 表达 式 能 更 快 地 被 计算 出 结果 。 在 
1.2.5 节 中 简要 讨论 过 的 查询 “优化 器 ”的 重要 作用 就 是 把 某 个 关系 代数 表达 式 替 换 为 更 
加 有 效 计算 的 等 价 形式 。 





例 5.11. 连接 操作 的 一 个 应 用 就 是 将 分 解 为 BCNF 的 关系 重新 组 合 。 回 想 例 3.24 中 被 分 解 的 
关系 9。 

Moviel 有 模式 {title, year, length, filmType, studioName} 

Movie2 有 模式 : {title, year, starName} 


现在 考虑 编写 查询 “超过 100 分 钟 长 的 电影 中 的 影星 是 谁 *” 的 查询 表达 式 。 这 个 查询 与 
Movie2 的 starName 属 性 和 Movie1 的 length 属 性 有 关 。 通过 连接 操作 可 以 把 两 个 关系 的 属 
性 连接 起 来 。 自 然 连接 只 对 在 title 和 year 属 性 上 相同 的 元 组 才能 成 功 配 对 ， 也 就 是 说 ， 仅 
仅 那些 代表 同一 个 电影 的 元 组 才 可 以 配对 。 于 是 ， 关 系 代数 表 达 式 Movi el mMovie2 的 结果 
就 是 在 例 3.24 中 被 称 做 Movie 的 关系 。 这 是 个 非 BCNE 关 系 ， 其 模式 有 六 个 属性 ， 并 且 当 有 多 
个 影星 参与 同一 部 影片 时 ， 该 关系 用 多 个 元 组 来 表示 。 

对 于 Movie1l 和 Movie2 连 接 后 的 关系 还 要 作 选 择 操作 ， 选 出 那些 长 于 100 分 钟 的 元 组 。 最 
后 再 将 其 投影 到 人 们 感 兴趣 的 属性 starName 上 。 于 是 表达 式 : 


MstarName( Otengh> ioo(Moviel PA Movie2 y) 


用 关系 代数 实现 了 人 们 期 望 的 查询 。 口 


5.2.9 重 命名 
关系 代数 操作 的 结果 也 是 一 个 关系 。 为 了 有 效 管理 生成 的 结果 关系 的 属性 名 字 ， 重 命名 操 

作 就 非常 必要 。 算 符 ps (Ai, Ar, uo A )(R) 表 示 对 关系 R 重 新 命名 。 重 命名 后 的 关系 与 关系 R 有 

完全 相同 的 元 组 ， 只 不 过 关系 的 名 字 变 成 了 5S。 另外 ，5 关 系 的 各 个 属性 分 别 命名 为 41,，A,，.…， 

4+， 按 从 左 到 右 的 顺序 排列 。 如 果 只 是 想 把 关系 R 的 名 字 改 变 为 5s， 并 不 改变 其 中 属性 的 名 字 ， 

就 可 以 简单 的 使 用 ps (R) 即 可 。 
例 5.12 ”在 例 5.5 中 曾经 对 图 5-4 中 的 关系 R 和 5 进行 积 操作 ， 并 约定 当 两 个 关系 存在 同名 属 

性 时 ， 分 别 把 关系 的 名 字 作 为 结果 属性 名 称 的 前 级 。 为 方便 起 见 ， 在 图 $-9 中 列 出 这 两 个 关系 。 


Y 
Q 
N 


O 记 住 , 该 例 中 关系 Movie 的 模式 与 5.1 节 中 介绍 并 在 例 5.2 中 使 用 的 关系 Movie 的 模式 有 点 不 同 。 
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假如 不 希望 把 两 个 属性 B 称 做 R.B 或 者 是 $.8， 而 是 仍然 希望 来 自 R 的 属性 8 保持 原来 的 名 称 ， 
来 自 S 的 属性 8 改 为 X。 操 作 pscx, c px(5) 的 结果 是 一 个 名 为 8 的 关系 ， 它 看 起 来 与 5 很 相似 。 惟 一 
的 不 同 是 此 关系 的 第 一 个 属性 名 是 X 而 不 是 8。 


关系 5 


: 


OPN OF NI! de 


B 
2 
2 
2 
4 
4 
4 





结果 Rx psx.c oS) 
图 5-9 在 积 运算 之 前 重 命名 


用 重 命名 后 的 关系 和 关系 R 进 行 积 操作 就 不 会 有 任何 命名 冲突 了 ， 也 就 不 需要 再 进一步 更 
改 属性 名 。R x Psu, c, p(5) 的 结果 与 图 5-4 中 R x $ 的 结果 相同 ， 只 是 结果 的 列 标题 从 左 到 右 分 别 
Æ: 4，B，X，C，D。 图 5-9 中 示 出 了 这 个 关系 。 
人 信也 可 以 不 进行 重 命名 就 直接 进行 积 操作 ， 就 像 在 例 5.5 中 所 做 的 那样 ， 到 最 后 再 对 结 
果 进 行 重 命名 。 表 达 式 pasa, s, x, c o(R x 8) 可 以 产生 跟 图 5-9 同 样 的 结果 ， 包 括 其 中 属性 的 名 
字 。 但 是 这 次 关系 有 了 新 的 名 字 一 一 RS， 而 图 5-9 中 的 关系 没有 名 字 。 口 


5.2.10 依赖 的 和 非 依赖 的 操作 
在 5.2 节 中 介绍 的 操作 ， 有 一 些 可 以 用 其 他 关系 代数 式 来 表达 。 例 如 ， 交 运算 可 以 如 下 表 





7N: 
ROS=R ~ (R-S) 
意思 就 是 ， 如 果 R 和 3 是 任意 的 两 个 关系 ， 他 们 有 同样 的 模式 ， 那 么 R 和 5$ 的 交 运 算 可 以 通 
过 如 下 步骤 实现 : 将 8 从 R 中 减 去 ， 形 成 了 一 个 新 的 关系 7， 它 包含 那些 在 R 中 但 是 不 在 8 中 出 现 
的 元 组 。 然 后 再 从 R 中 将 了 T 减 去 ， 这 样 就 只 剩 下 那些 既 在 R 中 又 在 8 中 出 现 的 元 组 了 。 
两 种 形式 的 连接 同样 可 以 用 其 他 表达 式 来 实现 。 比 如 6 连接 ， 可 以 用 积 操作 和 选择 操作 来 
实现 : 


RUS Oc (RxS) 


自然 连接 可 以 通过 先 做 一 个 积 操作 ， 然 后 再 按 如 下 形式 的 条 件 C 进 行 选择 来 实现 : 


R. Al =$.A, AND R.A2= S.A2 AND... AND R.A, = S.A, 


这 里 ，4:，4:，…，4" 是 所 有 同时 出 现在 R 和 8$ 中 的 属性 。 最 后 ， 对 于 相同 的 属性 必须 投影 

出 一 份 拷贝 。 令 ZL 是 所 有 R 中 的 属性 和 在 8 中 但 不 在 R 中 的 属性 的 列表 ， 那 么 
RDIS = m (Sc (RxS) ) 
55.13 图 5-6 中 U 和 V 的 自然 连接 可 以 写成 含有 积 、 选 择 、 投 影 的 式 子 : 
MAUBU.CD(OUB =v. ann v.c = ve (Ux V)) 

也 就 是 说 先 得 到 积 U x VY。 然后 在 其 中 寻找 使 得 B，C 属 性 相等 的 元 组 。 最 后 ， 将 其 投影 到 
除去 一 个 B 和 一 个 C 之 外 的 所 有 属性 上 。 这 里 是 选择 除去 关系 V 和 中 同时 出 现 的 属性 。 

另外 一 个 例子 是 关于 图 5-9 中 的 8 连接 ， 它 可 以 写成 : 


Oa <Dpaxp use va (U xV ) 


也 就 是 说 ， 先 进行 积 操作 ， 然 后 用 6 连接 中 的 条 件 进行 选择 。 口 


本 节 中 谈 到 的 重 写 规则 是 已 介绍 的 所 有 操作 中 惟一 的 “元 余 ”"。 其 余 六 个 操作 ， 连接 、 差 、 
选择 、 投 影 、 积 运算 和 重 命名 构成 了 一 个 独立 的 集合 ， 这 个 集合 中 的 每 一 个 操作 都 不 能 被 这 个 
集合 中 余下 的 操作 来 实现 。 

5.2.11 关系 代数 表达 式 中 的 线性 符号 

在 5.2.8 节 ， 曾 用 树 表示 复杂 的 关系 代数 表达 式 。 另 外 的 方法 就 是 生成 若干 临时 关系 ， 用 来 
表示 树 的 内 节点 ， 并 写 一 系列 的 赋值 语句 使 其 具有 正确 的 值 。 这 些 赋值 语句 的 顺序 可 变 ， 只 要 
保证 在 对 节点 N 赋 值 之 前 已 经 对 节点 N 的 节点 赋值 完毕 就 可 以 。 

在 赋值 过 程 中 用 到 的 符号 有 : 

1. 关系 的 名 字 和 用 括号 插 起 的 关系 属性 的 列表 。 名 字 Answer 习 惯 上 表示 最 后 一 步 运算 的 
结果 。 也 就 是 在 表达 式 树 根 结 点 上 的 关系 名 。 

2. 赋值 符号 :=。 

3. 写 在 赋值 号 右边 的 任何 代数 表达 式 。 可 以 采用 每 个 赋值 语句 只 用 一 个 算 符 的 方法 ， 这 样 
每 一 个 内 部 结 点 都 有 自己 对 应 的 赋值 语句 。 可 是 ， 如 果 方便 的 话 ， 仍 然 可 以 把 几 个 代数 运算 组 
合 到 一 起 写 在 表达 式 的 右 端 。 

例 5.14 考虑 图 5-8 中 的 树 ， 计 算 该 表达 式 的 一 个 可 能 的 结果 赋值 序列 如 下 ; 


R(t,y,1,i,s,p) := Glength>100 (Movie) 

S(t,y,1,4,8,P) := OstudioName='Fox’ (Movie) 

T(t,y,1,i,8,p) := RAS 

Answer (title, year) := Tti(T) 

第 一 步 ， 计 算 图 5$-8 中 标号 为 gen> io 的 内 部 节点 关系 ， 第 二 步 计 算 标号 是 wow， rox 的 
节点 关系 。 注 意 ， 因 为 只 要 人 们 愿意 就 可 以 对 关系 的 左边 使 用 任何 属性 和 关系 的 和 名字， 所 以 可 
以 自由 重 命名 。 最 后 两 步 显 然 是 进行 交 运算 和 投影 运算 。 

如 前 所 述 ， 可 以 对 某 些 操作 步骤 进行 合并 。 例 如 ， 可 以 对 最 后 两 步 进行 合并 ， 写 成 


R(t syst, i ?SS »P) = Fiength>100 (Movie) 


S(t,y,1,i,s,p) := OstudioName=’Fox’ (Movie) 
Answer(title, year) := m,;(R N S) 口 
5.2.12 习题 


习题 5.2.1 在 这 个 习题 中 , 介绍 一 个 正在 运行 的 关系 数据 库 模式 的 例子 和 一 些 示 例 数 据 ©, 


O 来 源 : 厂商 的 网 页 和 Amazon-com。 
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数据 库 模 式 由 四 个 关系 组 成 ， 这 四 个 关系 的 模式 是 : 


Product (maker, model, type) 

PC(model, speed, ram, hd, rd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer (model, color, type, price) 


关系 Product 给 出 了 各 种 产品 的 制造 厂商 ， 型 号 ， 类 型 ( PC、 手提 电脑 或 者 打印 机 ) 等 。 
这 里 简单 假设 所 有 产品 的 型 号 都 惟一 ， 而 不 管 它 是 由 哪个 制造 商 生产 的 。 这 个 假设 有 些 不 
守 合 实际 情况 ， 真 实 的 数据 库 中 ， 制 造 商 的 号 码 应 该 作为 型 号 的 一 部 分 。 关 系 PC 对 于 不 
同型 号 给 出 了 如 下 属性 : 速度 ( 处 理 器 的 速度 ， 单 位 是 MHz )、RAM 的 容量 ( 单位 是 MB ), 
硬盘 的 容量 (单位 是 GB )、 光 盘 驱 动 器 的 速度 和 型 号 ( 可 能 是 CD 也 可 能 是 DVD )、 价 格 等 。 
关系 Eaptop 也 类 似 ， 除 了 把 移动 硬盘 属性 换 成 了 显示 器 尺寸 外 ， 没 有 变化 。 关 系 
Printer 对 于 每 种 模型 ， 有 如 下 属性 : 是否 彩色 (如果 是 的 话 ， 这 个 值 是 true )、 处 理 类 . 
型 《激光 的 还 是 路 墨 的 ， 或 者 是 点 阵 的 )、 价 格 。 
关系 Product 的 一 些 数 据 的 例子 在 图 5-10 中 给 出 。 另 外 三 个 关系 的 样 例 数据 在 图 5-11 

中 给 出 。 生 产 厂商 和 型 号 被 忽略 了 。 这 些 数据 只 能 反映 是 2001 年 年 初 的 行情 。 

试 写 出 下 列 查询 的 表达 式 。 可 以 用 5.2.11 节 介绍 的 线性 算 符 来 写 这 些 表 达 式 。 针 对 图 
5-10 和 图 5-11 的 数据 ， 给 出 查询 的 结果 。 不 过 ， 你 的 答案 应 该 在 任何 数据 上 都 能 正确 工作 ， 
而 不 仅 限于 图 中 的 数据 。 





maker | model | type 
1001 | pc 
1002 | pc 
1003 | pe 
2004 | laptop 
2005 | laptop 
2006 | laptop 


| 





1004 | pc 
1005 | pc 
1006 | pc 


2001 | laptop 
2002 | laptop 
2003 | laptop 
1007 | pc 

1008 | pe 

2008 | laptop 
2009 | laptop 
3002 | printer 
3003 | printer 
3006 | printer 





1009 | pe 
1010 | pe 
1011 | pe 
2007 | laptop 
1012 | pe 
1013 | pe 


2010 | laptop 

3001 | printer 
3004 | printer 
3005 | printer 
3007 | printer 


图 5-10 关系 Product 的 数据 取样 
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model | speed | ram | hd | rd price 
48xCD 799 
1002 1500 12xDVD | 2499 
1003 | 866 8xDVD | 1999 
1004 866 12xDVD 999 
1005 1000 12xDVD | 1499 
1006 1300 16xDVD | 2119 
1007 1400 12xDVD | 2299 
1008 700 24xCD 999 
1009 1200 16xDVD | 1699 
1010 750 40xCD 699 
1011 1100 16xDVD | 1299 
1012 350 48xCD 799 
1013 733 12xDVD | 2499 

(a) 关系 PC 的 数据 取样 
model | speed | ram | hd | screen | price 

.1 
.1 2584 
.1 2738 
al 999 
.1 2399 
7 2999 
.0 3099 
.1 1249 
al 2599 
.1 1499 

(b) 关系 Laptop 的 数据 取样 
model | color | type price 








ink-jet 








3002 ink-jet 267 
3003 laser 390 
3004 ink-jet 439 
3005 bubble 200 
3006 laser 1999 
3007 laser 350 





(c) 关系 Printer 的 数据 取样 


图 5-11 练习 5.2.1 的 样 例 数据 


* a) 哪 一 种 型 号 的 PC 速度 大 于 1000? 
b) 哪 一 个 厂商 生产 的 所 有 手提 电脑 有 大 于 1G 的 硬盘 ? 
c) 查询 厂商 8 生产 的 所 有 产品 的 型 号 和 价格 。 
d) 查询 所 有 激光 打印 机 的 型 号 。 
e) 查询 那些 只 出 售 手提 电脑 、 不 出 售 PC 的 厂商 。 


* 


! f) 查询 在 一 种 或 者 两 种 PC 机 中 都 具有 的 硬盘 的 容量 。 

! g) 查询 有 同样 处 理 速 度 和 同样 内 存 大 小 的 PC 对 。 每 对 只 列 一 次 ， 即 列表 给 出 (ij ) 但 
不 给 出 (j,i)。 

H h) 查询 那些 至 少 生产 两 种 处 理 速度 大 于 700 的 PC 或 者 手提 电脑 的 厂商 。 


Wi) 查询 平均 处 理 速度 ( PC 或 者 是 手提 电脑 ) 最 高 的 厂商 。 
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"六 查询 至 少 生产 三 种 不 同 处 理 速度 电脑 的 厂商 。 
Nk) 查询 恰好 出 售 三 种 型 号 PC 的 厂商 。 
习题 5.2.2 面 出 上 题 中 每 个 查询 的 表达 式 树 。 
习题 5.2.3 ”用 5.2.11 节 的 线性 算 符 重 写 习题 5.2.1 中 的 那些 查询 。 
习题 5.2.4 ”这 个 习题 引 人 了 另外 的 一 个 连续 的 实例 。 涉 及 二 战 中 的 大 型 舰 船 。 它 由 以 下 册 
个 关系 组 成 ， 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles(name, date) 

Outcomes (ship, battle, result) 


相同 设计 的 舰 船 组 成 一 个 “类 ”， 类 别 的 名 称 通 常 就 是 这 个 类 的 第 一 稻 船 的 名 字 。 关 系 
Classes 记 录 了 “类 ”的 名 字 、 型 号 (bb 代表 主力 舰 ，bc 代 表 巡 洋 舰 )、 生 产 国 家 、 火 炮 
的 门 数 、 火 炮 尺 寸 ( 口径， 单位 是 英寸 ) 和 排水 量 ( 重量 ， 单 位 是 吨 )。 关 系 Ships 记 录 
了 舰 船 的 名 字 、 舰 船 类 属 名 字 、 开 始 服役 的 日 期 。 关 系 Batt1les 给 出 了 这 些 舰 船 参 加 的 
战役 的 时 间 。 关 系 Outcomes 给 出 了 各 个 舰 船 在 各 场 战 役 中 的 结果 ( 是 沉没 ， 还 是 受伤 ， 
或 者 完好 )。 
图 5-12 和 5-13 给 出 了 这 四 个 关系 的 数据 取样 9。 需 要 注意 的 是 ， 跟 习题 5.2.1 不 同 ， 在 这 个 习 
题 中 存在 着 “悬挂 元 组 ”， 比 如 ， 在 关系 cutcomes 中 出 现 的 船只 可 能 在 关系 Ships 中 查 不 到 。 
编写 实现 下 面 这 些 查 询 的 关系 代数 表达 式 。 对 照 图 5-12 和 图 5-13 给 出 查询 结果 。 可 是 ， 
你 的 答案 应 该 不 只 是 对 图 中 的 数据 有 效 ， 应 该 对 任意 的 数据 都 有 效 。 
a) 查询 那些 火炮 口径 至 少 十 六 英寸 的 舰 船 所 属 类 的 名 称 和 拥有 此 类 舰 船 的 国家 。 
b) 查询 那些 在 1921 年 之 前 服役 的 舰 船 。 
c) 查询 在 北大 西洋 战役 中 沉没 的 舰 船 。 
d) 在 1921 年 签署 的 华盛顿 条 约 禁 止 制造 超过 35 000 吨 的 大 型 军舰 ， 请 列 出 那些 违反 华 
盛 顿 条 约 的 军舰 。 
e) 列 出 参加 了 Guadalcana] 岛 海战 的 舰 船 的 名 称 、 排 水 量 及 火炮 的 数目 。 
f) 列 出 所有 的 在 此 数据 库 中 提 到 的 舰 船 。 
g) 列 出 只 包含 一 稻 舰 船 的 类 。 
h) 列 出 那些 既 有 主力 舰 又 有 巡洋舰 的 国家 。 
i) “ 留 得 青山 在 ， 不 怕 没 柴 烧 ”， 列 出 那些 在 某 次 战役 中 受伤 、 但 是 又 参加 了 其 他 战 
役 的 舰 船 。 
习题 5.2.5 画 出 习题 5.2.4 中 的 查询 表达 式 树 。 
习题 5.2.6 把 习题 5.2.4 中 的 每 个 表达 式 用 5.2.11 节 介绍 的 线性 表达 式 重 写 。 
习题 5.2.7 ”连接 ReaS 和 自然 连接 RC 5 的 区 别 是 什么 ? (这 里 ， 条 件 C 为 R.A = S.A, HRA 
是 任何 一 个 同时 出 现在 R 和 5 模式 中 的 属性 。) 
习题 5.2.8 ”一 个 关系 操作 符 被 称 做 是 单调 的 ， 当 且 仅 当 对 其 运算 参数 增加 任何 元 组 时 ， 
其 结果 中 始终 至 少 包含 那些 原 有 的 元 组 (也 可 能 包含 其 他 更 多 元 组 )。 本 节 中 的 儿 个 操作 
符 中 ， 哪 个 是 单调 操作 符 ? 对 于 每 个 操作 符 ， 如果 是 单调 的 , 给 出 理由 ; 如 果 不 是 单调 的 ， 


日 来 源 : IN. Westwood, Fighting Ships of World War II, Follett Publishing, Chicago, 1975 and R. C. Stern, US 
Battleships in Action, Squadron/Signal Publications, Carrollton, TX. 1980. 


举例 说 明 原因 。 
| 习题 5.2.9 ”假设 关系 R 和 关系 S 各 有 n 个 和 m 个 元 组 。 对 于 下 面 的 表达 式 ， 给 出 结果 中 可 能 
出 现 的 最 多 和 最 少 的 元 组 数目 。 
* a) RUS, 
b) RS, 
c) zc(R) xS， 对 于 某 个 条 件 CC。 
d) mR ~ S， 对 于 某 个 属性 列表 L。 

















class type | country | numGuns | bore | displacement 
Bismarck bb | Germany 8 |]1is [42000 
Iowa | bb USA 9 16 46000 
Kongo be Japan 8 14 32000 
North Carolina | bb USA 9 16 37000 
Renown be Gt. Britain | 6 15 32000 
Revenge bb Gt. Britain | 8 15 29000 
Tennessee bb USA 12 14 32000 
Yamato bb Japan 9 18 65000 








€ a) 关系 Classes 的 数据 取样 


name date 











North Atlantic | 5/24-27/41 

Guadalcanal 11/15/42 

North Cape 12/26/43 

Surigao Strait | 10/25/44 

(b ) 关系 Battles 的 数据 取样 

ship battle result 
Bismarck North Atlantic | sunk 
California Surigao Strait | ok 
Duke of York North Cape ok 
Fuso Surigao Strait | sunk 
Hood North Atlantic | sunk 
King George V North Atlantic | ok 
Kirishima Guadalcanal sunk 
Prince of Wales | North Atlantic damaged 
Rodney North Atlantic | ok 
Scharnhorst North Cape sunk 
South Dakota Guadalcanal damaged 
Tennessee Surigao Strait | ok 
Washington Guadalcanal ok 
West Virginia Surigao Strait | ok 
Yamashiro Surigao Strait | sunk 





(c) 关系 Outcomes 的 数据 取样 
图 $-12 习题 5.2.4 的 数据 


*! 习题 5.2.10 ”关系 R 和 5 的 半 连 接 (semijoin ) FER S$， 它 表示 由 R 中 的 满足 如 下 条 件 的 
元 组 组 成 的 包 : 至 少 跟 $ 中 的 一 个 元 组 在 R 和 5 的 公共 属性 上 相同 。 用 关系 代数 表达 式 给 出 
ROX 5 的 等 价 表 示 。 l 

! 习题 5.2.11 反 半 连接 (antisemijoin)RE< 3 是 由 R 中 的 元 组 ! 构 成 的 包 ，! 在 R 和 8 的 公共 属性 
上 的 值 ， 不 能 跟 $S 中 的 任何 元 组 相等 。 给 出 一 个 等 价 于 RB5< s 的 关系 代数 表达 式 。 

!! 习题 5.2.12 假设 R 是 具有 如 下 模式 的 关系 : 








好 


734 ， #5 


(Ai, As,..., An, Bi, B2,..., Bm) 
关系 $ 具 有 如 下 模式 (Bi, Bo, .., Ba) 它 的 属性 是 关系 R 的 属性 的 子 集 。R 和 5 的 商 ， 记 
做 R: SS， 是 具有 属性 4;,，4:，…，4,。( 即 那 些 是 R 中 的 属性 但 却 不 是 $ 中 的 属性 ) 的 元 组 集 ， 使 
得 对 于 5 中 的 任何 元 组 ,元 组 ts ( s 中 包括 :中 A1，A，,，...，4, 属 性 的 值 和 s 中 Bi, Bo,..., B,, 属 性 的 值 ) 
都 是 关系 R 中 的 元 组 。 用 前 面 已 经 定义 过 的 关系 操作 算 符 写 出 与 R + 5 等 价 的 关系 代数 表达 式 。 











name | class | launched 
California Tennessee 1921 
Haruna Kongo 1915 
Hiei Kongo 1914 
Iowa Iowa 1943 
Kirishina Kongo 1915 
Kongo Kongo 1913 
Missouri Iowa 1944 
Musashi Yamato 1942 
New Jersey Towa 1943 
North Carolina | North Carolina | 1941 
Ramillies Revenge 1917 
Renown Renown 1916 
Repulse Renown 1916 
Resolution Revenge 1916 
Revenge Revenge 1916 
Royal Oak Revenge 1916 
Royal Sovereign | Revenge 1916 
Tennessee Tennessee 1920 
Washington North Carolina | 1941 
Wisconsin Towa 1944 
Yamato Yamato 1944 





图 5-13 关系 Ships 的 数据 取样 
5.3 包 上 的 关系 操作 


虽然 元 组 集合 ( 即 关 系 ) 像 它 在 数据 库 中 一 样 , 是 一 个 简单 的 自然 的 基于 集合 的 数据 模型 ， 
但 是 在 商业 数据 库 系统 中 ， 很 少 是 完全 基于 集合 。 在 某 些 情 况 下 ， 关 系 允 许 相 同 的 元 组 出 现 多 
次 ， 就 像 在 数据 库 系统 当中 那样 。 当 一 个 集合 允许 同样 的 元 组 出 现 多 次 的 时 候 ， 它 通常 被 称 为 
@ (Bag) RA SH ( multiset )。 这 一 节 我 们 将 讨论 基于 包 的 关系 ， 也 就 是 说 ， 人 允许 同样 的 元 
组 在 一 个 关系 当中 出 现 多 次 。 当 提 到 集合 的 时 候 ， 就 意味 着 一 个 没有 重复 元 组 的 关系 ， 而 包 则 
意味 着 可 能 有 重复 元 组 出 现在 同一 个 关系 当中 ( 当然 ,也 可 能 没有 )。 

例 5.15 ”图 5-14 中 的 关系 就 是 一 个 基于 包 的 实例 。 其 中 ， 元 组 (1，2) 出 现 了 三 次 ， 元 组 (3， 
4) 出 现 了 一 次 。 如 果 图 $-14 表 示 的 是 一 个 基于 集合 的 关系 ， 将 必须 消去 两 个 (1，2) 元 组 。 在 基 
于 包 的 关系 当中 人 允许 重复 元 组 出 现 ， 但 是 ， 与 基于 集合 的 关系 一 样 ， 元 组 通常 没有 顺序 。 O 


A|B 

1 | 2 

3 |4 

1 | 2 

1 | 2 
图 5-14 包 


5.3.1 为 什么 采用 包 
当 考 虑 高 效 实现 一 个 关系 的 时 候 ， 如 果 采 用 基于 包 的 关系 的 话 ， 就 会 有 好 几 种 方法 加 速 查 





询 。 在 5.2 节 的 开始 曾经 提 到 过 怎样 通过 允许 结果 是 包 来 加 快 两 个 关系 的 并 操作 。 再 举 一 个 例 
子 ， 执 行 投影 操作 的 时 候 ， 人 允许 结果 关系 是 包 ( 不 管 原来 的 关系 是 否 基于 集合 ) 就 可 以 独立 地 
处 理 每 一 个 元 组 。 如 果 想 得 到 一 个 基于 集合 的 结果 ， 就 必须 将 每 一 个 元 组 跟 其 余 所 有 的 元 组 比 
较 ， 以 保证 这 个 元 组 在 关系 中 只 出 现 一 次 。 但 是 如 果 人 允许 结果 是 一 个 包 的 话 ， 就 可 以 简单 地 对 
每 个 元 素 作 投影 ， 然 后 把 它 加 入 到 结果 当中 ， 不 用 跟 已 经 得 到 的 其 他 元 组 比较 。 

例 5.16 ”如 果 允 许 结果 是 包 ， 并 且 不 去 掉 重 复元 组 (1，2) 的 话 ， 那 么 把 图 5-15 中 的 关系 投 
影 到 4，B 属 性 上 就 得 到 图 5-14 中 所 示 的 包 。 





图 5-15 例 5.16 的 包 
如 果 使 用 通常 意义 上 的 投影 操作 ， 就 不 允许 重复 元 组 在 结果 中 出 现 ， 那 么 结果 是 
A|B 


a |4 

注意 ， 尽 管 基于 包 的 结果 会 大 一 些 ， 可 计算 起 来 却 比 较 快 ， 因 为 不 用 把 元 组 (1，2)、(3， 
4) 跟 已 经 得 到 的 那些 元 组 相 比较 。 

男 外 ， 当 对 一 个 关系 做 投影 操作 ， 然 后 再 进行 “ 求 4 属性 的 平均 值 ” 这 样 的 聚合 操作 时 
(将 在 5.4 节 讨论 )， 不 能 采用 基于 集合 的 关系 作为 把 原 关 系 投影 到 4 属性 上 的 结果 。 例 如 在 图 5- 
15 中 ,4 属性 的 平均 值 是 2， 因 为 这 个 属性 只 有 两 个 值 ，1 和 3。 但 是 如 果 把 图 5-15 中 的 4 属性 看 
成 是 包 {1，3，1，1} 的 话 ， 就 得 到 了 4 属 性 的 正确 平均 值 一 一 1.5。 口 


5.3.2 包 的 并 、 交 、 差 

当 把 两 个 包 并 起 来 时 ， 要 把 相应 元 组 出 现 的 次 数 相 加 。 就 是 说 ， 如 果 R 是 一 个 包 ， 其 中 元 
组 :出 现 了 n 次 ; 5S 也 是 一 个 包 ， 其 中 元 组 :出现 了 m 次 。 那 么 在 RU 5S 中， 元 组 出 现 了 n+m 次 。 注 
意 ， 这 里 的 x 和 m 都 可 以 是 0。 

当 执 行 两 个 包 R 和 5 的 交 时 ， 假 定 其 中 元 组 纷 别 出 现 了 n 次 和 m 次 ， 则 在 RNS 中， 元 组 ! 出 现 
了 min(n，m) 次 。 当 计算 R-S 时 ， 元 组 在 R-5 中 出 现 了 max(0，n-_m) 次 。 也 就 是 说 ， 如 果 元 组 : 
在 R 中 出 现 的 次 数 更 多 ， 则 R-5 中 i 出 现 的 次 数 就 是 :在 R 中 出 现 的 次 数 ， 减 去 :在 5 中 出 现 的 次 数 。 
反之 ,如果 t 在 S 中 出 现 的 次 数 更 多 或 者 跟 在 R 中 出 现 的 次 数 一 样 多 ， 那 么 在 R-5 中 就 不 出 现 了 。 
直观 上 ， 直 5 中 的 每 次 出 现 ， 都 抵消 了 它 在 R 中 的 一 次 出 现 。 

例 5.17 ”RR 是 一 个 跟 图 5-14 中 一 样 的 基于 包 的 关系 ,元 组 (1，2) 出 现 了 三 次 ,元 组 (3,， HE 
现 了 一 次 。 而 5 是 如 下 的 基于 包 的 关系 ， 





那么 RUS 就 是 这 样 的 一 个 关系 : 其 中 元 组 4 ，2) 出 现 了 四 次 (3 个 是 由 于 其 在 R 中 的 出 现 ， 
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1 个 是 由 于 在 中 的 出 现 ) ; 元 组 (3，4) 出 现 了 三 次 ，(5，6) 出 现 了 一 次 。 
有 R 和 5 的 交 RPmS 的 结果 是 
A | B 
1 |2 
3 | 4 
这 里 (1 ，2) 和 (3，4) 各 出 现 了 一 次 。 就 是 说 (1，2) 在 R 中 出 现 了 三 次 ， 在 8 中 出 现 了 一 次 ， 
min(3，1)=1， 所 以 (1，2) 在 Rnms 中 出 现 一 次 。(5，6) 在 $ 中 出 现 一 次 ， 但 是 在 R 中 没有 出 现 ， 所 
以 在 RMS 中 出 现 min(0，1) = 0 次 。 
基于 包 的 R-5 是 


原因 是 元 组 (1 ，2) 在 R 中 出 现 了 三 次 ， 在 S$ 中 出 现 了 一 次 ， 所 以 在 R-5 中 出 现 max(0，3-1) =2 
次 。 元 组 (3，4) 在 R 中 出 现 了 一 次 ,在 8 中 出 现 了 两 次 ， 所 以 在 R-S 中 出 现 max(0，1-2) =0 次 。R 
中 没有 其 他 的 元 组 再 出 现 了 ， 所 以 R-S 中 也 没有 其 他 的 元 组 了 。 

作为 另 一 个 例子 ， 基 于 包 的 差 $-R 是 包 


这 里 ， 元 组 3，4) 出 现 了 一 次 ， 因 为 这 个 元 组 在 R 中 出 现 的 次 数 减 去 它 在 8 中 出 现 的 次 数 是 
1。(5，6) 在 S-R 中 出 现 了 一 次 也 是 同样 的 原因 。 这 里 ， 其 结果 包 恰 好 是 一 个 集合 。 口 


5.3.3 包 的 投影 操作 
上 面 已 经 解释 了 包 上 的 投影 操作 。 在 例 $.16 中 ， 每 个 元 组 在 投影 操作 时 被 独立 处 理 。 如 果 
R 是 如 图 5-15 的 关系 ， 做 包 投影 操 作 zw, s(R) 时 得 到 的 将 是 如 图 5-14 的 关系 。 


在 集合 上 的 包 操作 
假设 现 有 两 个 集合 R 和 5S。 它 们 可 以 设想 成 恰好 是 没有 重复 的 元 组 的 包 。 假 定做 交 操 
作 : RNS， 并 且 是 运用 包 操 作 规 则 来 计算 。 这 个 操作 的 结果 就 与 跟 我 们 把 RR 和 5 看 成 是 集 
合 的 结果 一 样 。 也 就 是 说 ， 把 R 和 S 看 成 是 包 ，RMS 结 果 中 的 元 组 ! 的 个 数 是 在 R 和 5 中 出 
现 的 个 数 较 小 的 那个 。 但 是 ， 当 RR 和 5S 都 是 集合 的 时 候 ， 那 么 结果 中 it 在 每 个 集合 中 出 现 次 
数 只 能 是 0 或 1。 无 论 用 包 还 是 集合 的 规则 ， 结 果 中 1 出 现 的 次 数 至 多 一 次 ， 如 果 1 在 R 和 5S 


中 都 出 现 的 话 ， 那 么 结果 中 V 出 现 一 次 。 相 似 地 ， 如 果 运 用 包 上 的 差 规则 来 计算 R-5S 或 者 
SR， 其 结果 与 跟 利 用 集合 上 的 差 规 则 来 计算 同样 的 表达 式 得 到 的 结果 相同 。 

但 是 ， 并 操作 的 情况 就 不 是 这 样 了 ， 结 果 依 赖 于 把 R，5 看 成 是 包 还 是 集合 。 和 如 果 用 
包 的 规则 来 计算 RUS， 就 算 R 和 8 都 是 集合 的 话 ， 结 果 也 不 一 定 是 集合 。 鲍 如 ， 元 组 ! 在 民 
和 5S 中 各 出 现 一 次 ,运用 包 规 则 ， 那 么 在 结果 中 V 出 现 两 次 。 但 是 如 果 运 用 集合 规则 ，t 在 
结果 中 只 出 现 一 次 。 这 样 ， 进 行 并 操作 的 时 候 ， 就 必须 特别 小 心 的 弄 明 白 是 用 包 规 则 还 
是 用 集合 规则 。 


如 果 在 投影 操作 过 程 中 ， 除 去 了 一 个 或 者 多 个 属性 后 ,产生 了 多 个 同样 的 元 组 ， 那 些 重复 
的 元 组 将 不 会 被 从 包 投影 结果 中 除去 。 来 自 图 5-15 的 三 个 元 组 (1，2，5)、(1，2，7) (1, 2, 

















8) 在 投影 操作 之 后 ， 都 给 出 了 同样 的 结果 (1，2)。 在 结果 包 当 中 ， 元 组 (1，2) 出 现 了 三 次 ， 但 
在 集合 投影 操作 上 ， 这 个 元 组 仅 出 现 一 次 。 
5.3.4 包 的 选择 

在 包 上 应 用 选择 操作 的 时 候 ， 要 独立 地 测试 每 个 元 组 。 就 像 对 包 所 作 的 其 他 操作 一 样 ， 在 
结果 中 不 去 掉 重 复元 组 。 

例 5.18 如 果 R 是 包 


那么 包 选 择 gc>e(R) 的 结果 是 


除了 第 一 个 元 组 之 外 ， 其 余 的 都 满足 条 件 。 最 后 两 个 元 组 是 重复 的 ， 都 在 结果 当中 。 O 





关于 包 的 代数 定律 
一 个 代数 定律 就 是 两 个 关系 代数 表达 式 之 间 的 恒等式 ， 其 中 的 参数 是 表示 关系 的 变 
量 。 无 论 用 什么 样 的 关系 去 代替 等 式 中 的 变量 ， 等 式 都 依然 成 立 。 一 个 例子 是 并 操作 的 
交换 率 : RUS=SUR。 这 个 定律 无 论 在 R 和 5 是 包 还 是 集合 时 都 成 立 。 但 是 有 很 多 定律 只 


适用 于 集合 的 情况 。 一 个 简单 的 例子 是 : 集合 差 对 于 并 的 分 配 率 ，(RUS)-T = (R-NU 
(S~T)。 这 个 定律 只 适用 于 集合 而 不 适用 于 R 和 S 是 包 的 情况 。 假 设 R 和 S， 还 有 T 都 含有 元 
组 lf。 那 么 左边 的 表达 式 有 一 个 t 在 结果 中 ,但 是 右边 的 表达 式 结 果 中 没有 1。 如 果 作 为 集 
合 来 考虑 的 话 ， 那 么 结果 中 都 没有 !。 在 包 情 况 下 一 些 关系 代数 表达 式 的 例子 将 在 习题 
5.3.4 和 5.3.5 中 讨论 。 


5.3.5 包 的 笛 卡 儿 积 
包 的 笛 卡 儿 积 的 规则 正如 所 想像 的 那样 。 一 个 关系 中 的 每 个 元 组 跟 另 外 一 个 关系 中 的 每 个 
元 组 配对 ， 而 不 问 这 个 元 组 是 不 是 重复 出 现 。 结 果 是 ， 如 果 元 组 在 关系 R 中 出 现 了 m 次 , 元 组 s 
在 关系 S 中 出 现 了 n 次 ， 那么 元 组 rs 在 Rx 5 中 将 出 现 mn 次 。 
例 5.19 关系 R 和 5 在 图 5-16 中 给 出 。 乘积 R x 5 包括 六 个 元 组 ， 就 像 在 图 5-16 中 那样 。 注 意 ， 
对 于 属性 名 的 约定 ， 在 基于 包 的 情况 与 以 前 基于 集合 的 情况 完全 相同 。 这 样 的 话 ， 同 时 属于 R 
和 3 两 个 关系 的 属性 B， 在 积 中 出 现 两 次 ， 于 是 属性 的 前 面 要 加 上 关系 名 的 前 组 。 O fis 


5.3.6 包 的 连接 
连接 包 的 操作 也 跟 预 想 的 一 样 。 首 先 对 比 两 个 关系 当中 的 元 组 ， 看 是 不 是 能 组 成 一 对 ， 如 果 
可 以 的 话 ， 这 个 配对 起 来 的 元 组 就 是 结果 中 的 一 员 。 当 产生 结果 的 时 候 ， 不 需要 去 掉 重 复元 组 。 
$5.20 图 5-16 中 的 关系 R 和 5 的 自然 连接 结果 是 : 


A|BIC 
1/2/3 
1/2;3 
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元 组 (1，2) 跟 $ 中 的 元 组 (2，3) 连 接 。 因 为 在 R 中 有 两 个 (1 ，2) 元 组 ， 在 $ 中 有 一 个 2，3) 元 
219) 组 , 这 样 就 有 两 个 配对 成 功 的 元 组 对 得 到 (1，2，3)。 其 他 R 和 5 中 的 元 组 均 没 有 成 功 的 连接 。 
为 一 个 关于 关系 R 和 关系 S 的 例子 是 6 连接 


RaBp<sBS 
将 包 进行 积 操作 
4 -B | S.B 


连接 运算 如 下 。 来 自 R 的 元 组 (1，2) 和 来 自 5 的 元 组 (4，5) 满 足 连 接 的 条 件 。 因 为 他 们 都 在 各 自 
的 关系 当中 出 现 了 两 次 ， 则 连接 后 的 元 组 出 现 了 2 x 2 = 4 次 。 另 外 可 能 连接 结果 是 R 的 元 组 (1 ， 
2) 和 5 的 元 组 (2，3)， 但 是 这 个 不 满足 连接 条 件 ， 所 以 不 在 结果 当中 。 口 





(c) R xsS 的 结果 
图 $5-16 计算 包 的 乘积 


5.3.7 习题 
* 习题 5.3.1 PC 是 图 5-11 中 的 关系 ,假设 要 计算 投影 zpos (PC)。 分 别 给 出 用 集合 和 用 包 表 
示 的 结果 值 ， 以 及 该 投影 的 平均 值 。 
习题 5.3.2 对 习题 5.3.1 的 情况 计算 投影 Rs(PC)。 
习题 5.3.3 该 习题 参照 习题 5.2.4 中 的 舰 船 模式 。 
a) RIAD Mor (Classes) 产 生 了 一 个 单列 的 关系 ， 当 把 结果 看 成 是 包 和 集合 时 ， 分 别 
给 出 这 个 关系 。 
! b) 给 出 所 有 船只 的 火炮 口径 (不 是 船只 类 属 )。 你 的 表达 式 必 须 是 对 包 有 意义 ， 也 就 是 
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说 ,一 个 值 bp 出 现 的 次 数 必须 等 于 具有 这 个 值 的 火炮 口径 的 船只 数目 。 
! 习题 5.3.4 ”一些 对 集合 有 效 的 代数 运算 规则 对 包 也 同样 有 效 。 解 释 下 面 的 规则 为 什么 对 包 
和 集合 都 有 效 。 
* a) 对 于 并 的 结合 律 : (RUS)UT=RU(SUDT) 
b) 对 于 交 的 结合 律 RASNTERNEAD 
c) 对 于 自然 连接 的 结合 律 : (RAS) T=R (ST) 
d) 并 的 交换 律 : RUS-SUR 
e) 交 的 交换 律 : RAS=SAR 
D 自然 连接 的 交换 律 : ReaS= SpaR 
8) NL (RUS) = m (R)U oi (S) 这 里 是 任意 的 属性 列表 。 
* h 并 对 于 交 的 分 配 定律 : RUGSAT = (RUS) N(RUT) 
i) Oc aop(R) = Oc(R)N ov(R) 这 里 ，C、D 是 任意 的 对 于 R 中 元 组 的 条 件 。 
!! 习题 5.3.5 下 面 这 些 代 数 规则 仅 适用 于 集合 ， 不 适用 于 包 , 请 说 明 为 什么 他 们 适用 于 集合 ， 
并 举 出 不 适用 于 包 的 反例 。 
* a) (RMNS)-T= RN(S-T) 
b) 交 对 于 并 的 分 配 定律 : RN(SUD =(RNS)U(RONT) 
c) Ocorp(R) = ac(R)Uap(R) 


5.4 关系 代数 的 扩展 操作 


在 5.2 节 中 介绍 了 经 典 的 关系 代数 ，5.3 节 介绍 了 基于 包 的 关系 的 一 些 必要 的 改动 。 这 些 内 
容 形成 了 现代 查询 语言 的 基础 。 但 是 像 SQL 这 样 的 语言 还 有 许多 其 他 的 操作 ， 这 些 在 应 用 中 更 
为 重要 。 因 此 ， 这 一 节 将 全 面 介绍 关系 代数 的 其 他 操作 。 增 加 的 内 容 有 ; 

1. 消 重 复 操作 符 6 把 包 中 的 重复 元 素 都 去 掉 ， 只 保留 一 个 副本 在 关系 当中 。 

2. 聚集 操作 (aggregation operator )。 例 如 求 和 或 者 求 平 均值 。 这 些 不 是 关系 代数 的 操作 但 
却 是 锌 分 组 (grouping ) 操作 所 使 用 ( 下面 会 讲 到 )。 当 聚集 操作 应 用 到 某 个 关系 的 属性 时 ， 
比如 说 是 sam 操作， 就 把 这 一 列 的 所 有 值 加 起 来 求 和 计算 出 结果 。 

3. 根据 元 组 的 值 对 他 们 在 一 个 或 者 多 个 属性 上 分 组 ( grouping )， 有 把 某 个 关系 的 元 组 分 
成 “组 ”的 效果 。 这 样 ， 聚 集 操 作 就 可 以 对 分 好 组 的 各 个 列 进行 计算 。 这 给 我 们 提供 了 在 经 典 
的 关系 代数 表达 式 中 不 能 表达 的 方式 来 描述 许多 查询 。 分 组 算 符 y 是 组 合 了 分 组 和 聚集 操作 的 
一 个 算 符 。 

4. 排序 算 符 工 把 一 个 关系 变 成 一 个 元 组 的 列表 ， 根 据 一 个 或 者 多 个 属性 来 排序 。 这 个 操作 
使 用 时 要 心中 有 数 ， 因 为 其 他 的 关系 代数 操作 都 是 对 集合 或 者 包 进行 操作 ， 所 以 这 个 操作 一 般 
作为 一 系列 操作 的 最 后 一 个 来 使 用 。 

5. 扩展 投影 (extended projection ) 在 普通 x 操作 上 增加 了 一 些 功 能 。 它 可 以 以 原 有 的 列 作 
为 参数 来 进行 计算 ， 并 产生 新 的 列 。 

6. 外 连接 算 符 ( outerjoin operator) 是 连结 算 符 的 变 体 ， 它 防止 了 悬挂 元 组 的 出 现 。 在 外 
连接 的 结果 中 ,悬挂 元 组 用 null 补 齐 ， 这 样 悬 挂 元 组 就 可 以 在 结果 中 被 表示 出 来 。 

5.4.1 消除 重复 
有 时 候 ， 需 要 用 一 个 算 符 把 包 转 化 为 集合 。 为 此 目的 ， 用 SR) 来 返回 一 个 没有 重复 元 组 的 
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例 5.21 如 果 R 关 系 是 : 


那么 ，6 (R) 为 


注意 元 组 (1，2) 在 R 中 出 现 了 三 次 ， 但 是 在 6(R) 中 仅 出 现 了 一 次 。 E 


5.4.2 聚集 操作 符 

有 许多 应 用 在 内 含 原 子 值 的 集合 或 包 上 的 操作 符 。 这 些 算 符 被 用 来 汇总 或 者 “聚集 ”关系 

某 一 列 中 出 现 的 值 ， 所 以 被 称 为 聚集 操作 。 这 些 操 作 的 标准 算 符 是 : 

1. SUM 用 来 产生 一 列 的 总 和 ， 得 到 的 是 一 个 数字 值 。 

2. AVG 用 来 产生 一 列 的 平均 值 ， 结 果 也 是 数字 值 。 

3. MIN 和 MAX， 当 用 于 数字 值 列 的 时 候 ， 产 生 的 分 别 是 这 一 列 中 最 小 的 和 最 大 的 值 ; 当 应 用 
于 字符 值 列 的 时 候 ， 产 生 的 是 字典 序 的 最 大 者 和 最 小 者 。 

4. COUNT 产 生 一 列 中 的 “ 值 ” 的 数目 (并 不 一 定 指 不 同 的 值 )。 同 样 ，couNT 应 用 于 一 个 
关系 的 任何 一 个 属性 时 ， 产 生 的 是 这 个 关系 的 元 组 数 ， 包 括 重 复 的 元 组 。 

例 5.22 考虑 关系 : 

4 


B 
1 | 2 
3 14 
1 j2 


2 


一 些 应 用 在 这 个 关系 属性 上 聚集 操作 的 例子 是 ; 
1. SUM (B) =2+4+2+2=10。 

2. AVG (A) =(1+3+1+1)/4=1.5。 

3. MIN (A)=1。 

4. MAX (B) =4。 


5. COUNT (A) =4, 
口 


5.4.3 分 组 
通常 ， 人 们 不 仅 希望 简单 的 对 一 整 列 求 平均 值 或 者 是 其 他 的 聚集 操作 ， 还 需要 按照 其 他 某 
一 属性 分 组 ， 然 后 考虑 各 分 组 中 元 组 的 聚集 操作 。 比 如 ， 要 计算 每 一 个 制 片 厂 出 品 的 电影 总 长 
度 是 多 少 分 钟 ， 其 关系 是 ; 
studio | sumOfLengths 


Disney | 12345 
223 MGM 54321 


从 关系 Movie (title, year, length, inColor, studioName, producerCc#) F 
始 ， 对 于 5.1 节 中 的 数据 库 例 子 ， 先 必须 根据 属性 s tudioName 的 值 把 元 组 分 组 。 然 后 计算 每 
一 组 中 1ength 属 性 值 的 和 。 可 以 把 Movie 的 元 组 想像 成 图 5-17 中 那样 ， 然 后 对 每 一 组 应 用 操 
作 SUM (Length). 


studioName 


一 十 一 一 一 一 -一 








Disney 
Disney 
Disney 
MGM 
MGM 


O 
oO 
oO 











图 5-17 想像 把 一 个 关系 分 组 


5.4.4 分 组 操作 符 
现在 介绍 一 个 允许 把 关系 分 组 和 (或 ) 聚集 的 算 符 。 如 果 有 分 组 ， 那 么 聚集 操作 就 在 组 中 
进行 。 
算 符 y 的 下 标 是 一 个 元 素 的 列表 L， 其 中 每 一 个 元 素 是 下 面 情况 之 一 : 
a) 是 应 用 7 操作 的 那个 关系 的 一 个 属性 ， 这 个 属性 是 那些 可 以 把 R 分 组 的 属性 其 中 之 一 。 
这 个 元 素 就 被 称 为 是 分 组 属性 。 
b) 应 用 到 关系 的 一 个 属性 上 的 聚集 操作 符 。 为 了 在 结果 中 对 应 此 聚集 ， 给 属性 一 个 名 称 ， 
一 个 箭头 和 一 个 新 的 名 字 附 在 这 个 聚集 的 后 面 。 加 了 下 划 线 的 属性 被 称 做 是 聚集 属性 。 
表达 式 y (R) 返 回 的 关系 是 这 样 产生 的 ; 
1. 把 关系 R 的 元 组 分 组 。 每 一 组 由 具有 中 分 组 属性 为 特定 赋值 的 所 有 元 组 构成 。 
2. 对 于 每 一 组 ， 产 生 一 个 如 下 内 容 的 元 组 : 
i. 那个 组 的 分 组 属性 值 。 
ii, 本 组 中 所 有 元 组 对 列表 Z 的 属性 聚集 操作 的 结果 。 


6 是 特 除 情况 

技术 上 讲 ，6 操 作 是 元 余 操 作 。 如 果 R(41, A2,…, hn) 是 关系 ， 则 BR) 等 价 于 YA m. a Ro 
也 就 是 说 ， 为 了 消除 重复 ， 用 关系 的 所 有 属性 分 组 ， 但 是 没有 聚集 操作 。 于 是 ， 每 一 组 
只 有 一 个 元 组 对 应 关系 民 中 一 次 或 多 次 出 现 的 元 组 。 由 于 y 中 每 一 组 只 含有 一 个 元 组 ， 该 
分 组 的 效果 就 是 消除 重复 。 可 是 ， 因 为 6 操作 很 普遍 和 重要 ， 所 以 在 研究 代数 定律 和 操作 
符 实现 算法 时 仍然 将 6 单独 考虑 。 

也 可 以 把 } 看 做 是 集合 上 投影 操作 的 扩展 。 也 就 是 说 ， 如 果 凡 是 集合 ， Yaaa aR 
B AA, An 为 (相同 。 可 是 如 果 R 是 包 ， 那 么 操作 将 消除 操作 结果 中 的 重复 。 因 此 ， Y 
操作 常常 被 看 做 是 广义 投影 ( generalized projection )。 


例 5.23 假设 有 如 下 的 关系 : 


StarsIn(title, year, starName) 


现 想 找 出 那些 至 少 出 演 了 三 部 电影 的 影星 ， 以 及 他 们 最 先 出 演 的 电影 的 拍摄 时 间 。 第 一 步 
就 是 分 组 ， 以 starName 作 为 分 组 的 条 件 。 显 然 ， 需 要 对 每 一 组 计算 MIN (year) 。 但 是 ,为 
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了 确定 满足 至 少 出 演 三 部 电影 的 条 件 ， 还 需 进 行 COUNT (title) 的 操作 。 

先 从 如 下 的 分 组 表达 式 开始 : 

ViarName, “tN(year) > min Year, COUNTItiey ertitle(S tar SIn) 

此 表达 式 结果 的 前 两 列 是 需要 的 ， 第 三 列 ™ starName, minYear 
是 辅助 属性 ， 用 ctTit1e 来 标记 。 该 列 是 用 来 
确定 一 个 影星 是 否 在 三 部 影片 中 出 现 。 也 就 是 Go 
说 ， 在 进行 选择 ctTitle>=3 之 后 继续 进行 代 
数 表 达 式 的 计算 ， 把 它 投影 到 前 两 个 属性 上 边 。 


ctTitle >= 了 





这 个 查询 的 表达 式 树 如 图 5-18 所 示 。 口 YstarName, MIN( year) > minYear, COUNT title ) —> ciTitle 
5.4.5 扩展 的 投影 操作 符 

现在 重新 考虑 $.2.3 节 中 介绍 的 投影 操作 StarsIn 
五 (R)。 在 经 典 的 投影 操作 当中 ， 工 是 R 的 一 些 图 5-18 例 5.23 中 的 查询 的 表达 式 树 


属性 的 集合 。 扩 展 这 个 投影 运算 ， 使 它 支持 在 元 组 上 的 计算 。 仍 然 用 五 (R) 来 表示 投影 操作 ， 
其 中 ， 投 影 列 表 可 以 是 以 下 所 列 出 的 元 素 之 一 : 

1. R 的 一 个 属性 。 

2. 形 如 x 一 y 的 表达 式 ， 其 中 ，x 和 y 都 是 属性 的 名 字 。x 一 y 表 示 把 R 中 的 x 属性 取 来 并 重 命名 
Ayo 

3. 形 如 Ez 的 表达 式 ， 其 中 EE 是 一 个 涉及 R 的 属性 、 常 量 、 代 数 运算 符 或 者 字符 串 运算 符 
的 表达 式 。z 是 表达 式 E 得 到 的 结果 属性 的 新 名 字 。 例 如 ，atb 一 x 作为 一 个 列表 元 素 表示 a 和 4b 属 
性 的 和 ， 并 重 命 名 为 x。 元 素 clld 一 e 表 示 连 接 字符 品类 型 的 属性 c 和 4d， 并 重 命名 为 e。 

投影 操作 的 结果 是 通过 依次 考虑 R 的 每 一 个 元 组 得 到 。 用 元 组 中 的 成 分 代替 工 中 相应 的 属性 ， 
并 对 其 施 以 适当 的 运算 。 结 果 模 式 的 属性 名 就 是 Z 中 指定 的 名 字 。 如 果 在 R 中 有 重复 元 组 的 话 ， 
结果 当中 肯定 也 有 重复 的 元 组 ， 但 是 就 算 在 R 中 没有 重复 的 元 组 ， 在 结果 当中 同样 有 可 能 产生 
重复 元 组 。 

例 5.24 令 R 是 如 下 的 关系 


那么 TA, B+ CX (R) 的 结果 是 


结果 模式 有 两 个 属性 。 一 个 是 4， 即 R 中 的 第 一 个 属性 ,没有 进行 重 命名 。 另 一 个 是 R 中 的 
第 二 个 和 第 三 个 属性 的 和 ， 被 重 命名 为 X。 
RAAF, Tea, car(R) 的 结果 是 
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， 这 个 投影 操作 的 列表 恰好 对 每 一 个 元 组 产生 了 相同 的 结果 ， 这 样 ， 元 组 (1，1) 就 在 
ARREA 岗 了 三 次 。 口 


5.4.6 排序 操作 符 

有 很 多 时 候 人 们 希望 对 关系 当中 的 元 组 按 一 个 或 者 多 个 属性 排序 。 通 常 ， 当 进行 查询 的 时 
候 ， 和 希望 结果 是 排 好 序 的 。 例 如 ， 当 查询 Sean Connery 所 出 演 的 电影 的 时 候 ， 可 能 希望 结果 是 
按 着 tit1e 的 字典 序 排列 ， 这 样 就 可 以 很 容易 地 找到 关心 的 某 一 部 电影 。 先 对 关系 当中 的 元 组 
排序 可 以 提高 DBMS 的 效率 。 

表达 式 t(R)， 其 中 R 是 关系 ，L 是 R 中 某 些 属性 的 列表 。 这 个 表达 式 表 示 的 就 是 关系 R 本 身 ， 
只 不 过 结果 中 的 所 有 元 组 是 按照 ZL 排序 。 如 果 Z 是 这 样 的 : 4 ，4:，.…，4,， 那 么 R 的 元 组 就 先 
按 属性 4 的 值 先 排 序 ， 对 于 4, 属 性 相等 的 元 组 ， 就 按 4; 的 值 排序 ， 依 此 类 推 。 如 果 4, 属 性 也 相 
同 的 话 ， 则 这 些 元 组 的 顺序 可 以 是 任意 的 。 

例 5.25 ”如果 有 R 的 模式 是 RA，B，C)， 那 么 rr, a(R) 就 把 R 中 的 元 组 按 着 C 的 值 排序 ， 对 于 C 
属性 值 相同 的 元 组 ， 以 8 属 性 的 值 确定 他 们 的 顺序 。 如 果 在 B 和 C 属 性 上 都 相同 的 话 ， 这 些 元 组 
之 间 的 顺序 可 以 是 任意 的 。 o 


人 操作 符 特殊 之 处 在 于 : 它 是 关系 代数 中 惟一 一 个 结果 是 元 组 列表 的 操作 符 。 这 样 ， 从 查询 的 
表达 方面 来 讲 ， 它 只 能 作为 一 串 操 作 的 最 后 一 个 算 符 来 使 用 时 才 有 实际 意义 。 因 为 ， 如 果 在 t 之 后 
还 有 另外 一 个 关系 操作 ，? 产 生 的 结果 就 只 能 当 作 是 一 个 包 或 者 是 集合 ， 其 中 的 元 组 也 不 再 有 序 。 
5.4.7 外 连接 

连接 操作 的 一 个 性 质 就 是 有 可 能 产生 悬挂 元 组 。 也 就 是 说 ， 这 些 元 组 不 能 跟 另 外 关系 的 任 
何 一 个 元 组 匹配 。 因 为 悬挂 元 组 在 结果 中 没有 任何 痕迹 ， 所 以 这 样 的 连接 操作 并 不 能 完全 反映 
原始 关系 的 全 部 信息 。 在 某 些 场合 ， 比 如 某 些 商 用 系统 中 ， 一 个 连接 的 变种 外 连接 ( outerioin ) 
被 广泛 使 用 。 

先 来 考虑 自然 连接 的 例子 ， 其 连接 发 生 在 两 个 关系 中 同 值 同 名 的 属性 上 。 外 连接 RS 开始 
进行 的 操作 就 是 RS， 然 后 再 把 来 自 R 或 者 5 的 悬浮 元 组 如 入 其 中 。 用 null 的 表示 符号 上 补 齐 结 
果 元 组 中 那些 不 具有 值 的 属性 3。 

例 5.26 图 5-19 中 有 两 个 关系 UV 和 V。U 的 元 组 (1 ，2，3) 可 以 和 V 的 元 组 2，3，10)、(2，3， 
1H) 连 接 ， 那 么 这 三 个 元 组 是 不 悬浮 的 。 但 是 ,另外 三 个 元 组 一 一 来 自 5 的 (4，5，6)、(7，8， 
9 和 来 自 Y 的 (6，7，12) 一 一 都 是 悬 汉 的 。 这 三 个 元 组 没有 匹配 的 元 组 。 这 样 ， 在 Uiwy 中 ， 三 
个 悬浮 元 组 中 没有 值 的 属性 被 赋予 上 ， 它 们 是 U 元 组 对 应 的 D 腐 性 和 V 元 组 对 应 的 4 属性 。 oO 

基本 的 外 连接 有 几 种 不 同 的 变 体 。 左 外 连接 (left outerjoin ) Roy SAU FINE, REK 
ERERKEN 1 A BIER, FEAL, Æ IPHECright outerjoin) R&S, HEE 
S 的 悬浮 元 组 用 上 补 齐 加 入 结果 。 

例 5.27 如 果 U 和 V 是 如 图 5-19 所 示 , WAU VARE: 





晶 、 然而， 如 果 对 中 间 结 果 进 行 排序 的 话 ， 有 时 会 加 快 查询 速度 ， 


@ 在 学 习 SQL 语言 时 ， 将 会 看 到 空 值 符号 被 写成 NULL。 这 里 如 果 你 想 用 Nu 代替 L 的 话 也 是 可 以 的 。 


N 
N 
~ 


nN 


aa ooo A 


UxV 的 结果 是 





ARU SV 


图 5-19 关系 的 外 连接 


另外 ， 所 有 的 三 个 自然 外 连接 算 符 都 有 其 相应 的 6 连接 版 本 。0 连 接 的 操作 是 ， 先 进行 9 连 
接 ， 然 后 将 那些 不 能 匹配 其 他 关系 的 元 组 ， 用 / 补 齐 。 可 以 用 UC V 表 示 一 个 带 条件 C 的 9 外 连 
接 。 同 样 也 可 以 用 IL 或 者 R 来 修饰 这 个 算 符 ， 使 其 表示 左 外 连接 或 者 右 外 连接 。 

例 5.28 U 和 V 是 图 5-19 中 的 关系 。 考 虑 U4 Ve URTA, 5, ©. (7, 8, 分别 和 V 
的 元 组 2，3，10)、(2，3，11) 满 足 匹配 条 件 。 这 样 它们 都 不 是 基 浮 元 组 。 但 是 ，U 的 元 组 (1， 
2，3) 和 的 元 组 (6，7，12) 是 悬 溯 的 。 结 果 在 图 5-20 中 列 出 。 口 


A | U.B | U.C | V.B | V.C | D 





图 5-20 9 外 连接 的 例子 


5.4.8 习题 
习题 5.4.1 已 知 有 关系 
R (A, B): {(0,1), (2,3), (0,1), (2,4), (3,4)} 
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S (B,C): {(0,1), (2,4), (2,5), (3,4), (0,2), (3,4)} 
计算 下 面 的 表达 式 : 
A+B, A?, a(R) ; 

b) Ten, ciG) 5 
* c) Ts a(R); 

d) Tz, c(5) ; 
* e) 6(R) ; 

f) 8S) ; 
* 8) Ya, summ (R) 5 
h) Ys, ava (S); 
i) Y4(R) ; 
J) Ya, maxo (ROSS); 
* k)Ro,S; 

D R & r (S); 

m) RS; 


* 3) z 


n) Rr pes BS: 

! 习题 5.4.2 TRER E F RE RA RS (idempotent) 的 ， 对 于 任何 关 
RRS (AR) = f (R)。 也 就 是 ， 应 用 f 若 干 次 跟 应 用 f 一 次 的 结果 是 一 样 的。 判断 下 面 哪个 操 
WERTH (AEA ); 

* a) ô; * b) m3 c) Oc; d) 和; e) To 
*! 习题 5.4.3 一 个 能 用 扩展 投影 操作 来 实现 、 但 是 不 能 用 一 般 的 投影 操作 来 实现 的 例子 是 复 
制 列 。 例 如 ， 如 果 R(A4，B) 是 一 个 关系 ， 那么 元 , 4 (R) 对 于 R 中 的 元 组 (a，b) 产 生 元 组 (a，a)。 
试问 这 个 操作 能 否 用 5.2 节 中 定义 的 传统 的 关系 代数 操作 来 实现 ， 说 明 你 的 理由 。 


5.5 关系 的 约束 


关系 代数 提供 了 一 种 表示 通常 的 约束 的 方法 ,例如 2.3 节 中 介绍 的 引用 完整 性 约束 。 事 实 
上 ， 应 该 看 到 ， 关 系 代数 提供 了 方便 的 表示 各 种 约束 的 方法 。 其 至 函数 相关 也 可 以 用 关系 代数 
表示 出 来 ， 就 像 在 例 5.31 中 的 那样 。 在 数据 库 编程 中 ， 约 束 非常 重要 ， 在 第 7 章 中 ,会 看 到 
SQL 数据 库 系 统 能 够 像 关 系 代数 那样 强制 约束 。 

5.5.1 作为 约束 语言 的 关系 代数 

用 关系 代数 表示 约束 有 两 种 方法 。 

1. 如 果 R 是 关系 代数 表达 式 ， 那 么 R = gq 表示 “R 的 值 必须 为 空 ”的 约束 ， 与 “R 中 没有 元 组 ” 
等 价 。 

2. 如 果 R 和 3 是 关系 代数 表达 式 ， 那 么 RE 8 表示 “任何 在 R 中 出 现 的 元 组 都 必须 在 S 中 出 现 ” 
的 约束 ， 当 然 ， 5 也 可 以 包括 其 他 的 元 组 。 表 示 约 束 的 方法 虽然 很 多 ,但 是 在 作用 上 来 说 都 是 
等 价 的 ， 只 是 某 些 方法 更 清楚 简洁 。 比 如 ， 约 束 R cS 也 可 以 写成 R-S=9。 因 为 如 果 每 一 个 在 R 
中 出 现 的 元 组 在 5 中 也 出 现 的 话 ， 那 么 R-5 就 是 空 。 反 过 来 ， 如 果 R-S 没 有 任何 元 组 的 话 ， 那 么 
任何 在 R 中 的 元 组 也 必然 在 S 中 出 现 。 
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另 一 方面 ， 第 一 种 形式 的 约束 R = 也 可 以 写成 Rc。 从 技术 上 讲 ，0 不 是 关系 代数 当中 的 
表达 式 ， 但 是 既然 有 跟 相 等 的 表达 式 ， 例 如 R-R， 那 么 把 $ 当 作 一 个 关系 代数 表达 式 也 没有 什 
么 不 好 。 注 意 ， 这 种 等 价 关 系 在 当 R 和 5 都 是 包 的 时 候 也 成 立 。 

接 下 来 的 几 节 中 ， 将 介绍 怎么 用 这 两 种 不 同 的 形式 表示 重要 的 约束 。 在 第 7 章 中 将 看 到 ， 
第 一 种 风格 的 约束 是 SQL 编 程 当中 最 常用 的 约束 。 但 是 同样 也 可 以 用 集合 包含 风格 来 考虑 问题 ， 
然后 再 转换 成 与 空 集 等 价 的 风格 。 

5.5.2 引用 完整 性 约束 

2.3 节 当中 的 “引用 完整 性 约束 ”是 一 类 普通 约束 。 它 规定 在 某 个 上 下 文中 出 现 的 值 也 必 
须 在 另外 一 个 相关 的 上 下 文中 出 现 。 也 就 是 说 ， 如 果实 体 4 与 实体 8 相关 ， 那 么 8 一定 要 真实 存 
在 。 例 如 ， 在 ODL 术 语 中 ， 如 果 对 象 4 的 一 个 联系 是 由 一 个 指针 来 进行 物理 表示 ， 那 么 该 联系 
的 引用 完整 性 约束 设 定 这 个 指针 不 为 空 ， 并 且 一 定 指 向 一 个 真实 的 对 象 。 

在 关系 模型 中 ， 引 用 完整 性 约束 看 起 来 有 些 不 同 。 如 果 在 关系 R 的 某 个 元 组 当中 ， 有 一 个 
值 是 *， 则 由 于 设计 上 的 原因 ， 可 以 期 望 * 是 另 一 个 关系 8 的 某 个 元 组 的 成 分 。 可 以 用 一 个 例子 
来 解释 如 何 用 关系 代数 表达 关系 模型 中 的 “引用 完整 性 约束 ”。 

例 5.29 考虑 前 面 的 电影 数据 库 模式 ,特别 是 如 下 两 个 关系 : 


Movie(title, year, length, inColor, studioName, producerC#) 
MovieExec(name, address, cert#, netWorth) 


有 理由 假设 每 个 影片 的 制作 者 都 必须 在 关系 MovieExex 里 出 现 。 如 果 不 是 这 样 的 话 ， 就 
会 出 错 。 于 是 ， 至 少 可 以 要 求 系统 实现 一 个 关系 数据 库 ， 以 便 在 对 某 个 影片 的 制作 者 一 无 所 知 
的 时 候 能 够 告知 用 户 。 

更 精确 地 说 ， 每 个 Movie 的 producerc# 属 性 必须 在 Movi eExec 关 系 的 cert# 中 出 现 。 
因为 制作 人 是 以 证 书号 码 来 惟一 确定 的 。 这 个 约束 可 以 表达 为 : 

MordicercAMOVie) S fenrMovieExec) 

表达 式 左边 的 值 是 所 有 Movie 元 组 的 证 书号 码 属性 producerc# 值 的 集合 。 类 似 地 ， 表 达 
式 右边 的 值 是 所 有 关系 MovieExec 元 组 中 cert# 属 性 的 证 书号 值 集合 。 约 束 要 求 所 有 在 第 一 
个 集合 中 的 证 书号 必须 也 在 第 二 个 集合 当中 。 

同样 地 ， 可 以 用 另外 一 种 风格 来 表达 同样 的 约束 ; 

Nprodwerc# (MOV i @)—Reene MOVieExec)=o 


口 


例 5.30 ”可 以 用 一 种 简单 的 方式 表达 多 个 属性 表示 同一 个 值 的 引用 完整 性 约束 。 例 如 ， 人 
们 可 能 希望 保证 每 一 个 在 关系 

StarsIn(movieTitle, movieYear, starName) 

中 出 现 的 电影 也 出 现在 关系 

Movie(title, year, length, inColor, studioName, producerC#) 
中 。 在 上 述 两 个 关系 中 ， 电 影 都 是 用 电影 名 -年 代 对 来 表示 ， 因 为 一 个 属性 并 不 足以 标识 -部 
电影 。 约 束 


RmovieTitle, movie Year ( StarsI n) 所 Mritle year (Mov i e) 


是 通过 把 两 个 关系 都 投影 到 合适 的 属性 列表 上 ， 然 后 比较 这 些 电影 名 -年 代 对 ， 来 表达 引用 完 





整 性 约束 。 
口 
5.5.3 其 他 的 约束 举例 
除 引用 完整 性 约束 外 ， 一 个 约束 符号 还 可 以 表达 许多 其 他 的 约束 。 例 如 ， 可 以 将 任意 的 函 
数 依赖 表示 为 代数 约束 ， 只 不 过 表达 起 来 非常 繁 珊 里 了 。 
例 5.31 在 关系 


MovieStar (name, address, gender, birthdate) 


使 用 代数 约束 的 方法 表达 如 下 FD， 

name — address 

其 思路 是 : 如 果 构 造 所 有 可 能 的 Moviestar 关 系 的 元 组 对 (t1/，t;)， 一 定 不 存在 在 属性 
name 上 相同 , 但 在 address 上 不 同 的 元 组 对 。 为 了 构造 元 组 对 ， 必 须 进 行 笛 卡 儿 乘 积 。 并 且 
选择 那些 违反 FD 的 对 ， 最 后 用 空 集 等 价 约束 判断 该 约束 是 否 成 立 。 

首先 , 由 于 是 把 一 个 关系 跟 自己 做 笛 卡 儿 积 , 所 以 必须 至 少 先 对 该 关系 的 一 个 副本 重 命名 ， 
以 便 能 够 方便 地 表示 乘积 的 属性 名 。 为 了 简洁 ， 使 用 两 个 新 名 : MS1，MS2 表 示 对 Moviestar 
关系 的 引用 。 这 样 ，FD 就 可 以 用 下 面 的 代数 约束 表达 : 


OMS! .name=MS2.name AND MSl.address #MS2.address (MS 1 x MS2)= 中 
在 上 面 的 表达 式 中 ， 乘 积 xsl x MS2 中 的 MS1 是 下 面 重 命名 的 缩写 


PMS I(name,address, genderbirthdae (MOVieStar) 


MS2 是 类 似 的 Moviestar 的 重 命名 。 o 


一 些 域 约束 也 可 以 用 关系 代数 表示 。 通常, 域 约束 简单 要 求 某 一 个 属性 的 值 有 特定 的 类 型 ， 
比如 整 型 或 者 长 度 是 30 的 字符 串 类 型 。 这 样 就 可 以 把 属性 和 域 联结 起 来 。 但 是 ， 通 常 一 个 域 约 
东 涉 及 对 属性 的 特定 值 的 需求 。 如 果 能 接受 的 值 的 集合 可 以 由 选择 条 件 语言 表示 ， 那 么 ， 该 域 
约 东 就 可 以 用 代数 约束 语言 表示 。 

例 5.32 ”假设 关系 Moviestar 中 genadqer 属 性 的 合法 值 只 有 ‘F M ‘M’. TE, XTA 
束 就 可 以 表示 为 : 


Opender#' F AND genders’ M° (MovieStar)=p 


意思 是 Moviestar 的 元 组 中 ，gender 成 分 既 不 等 于 ‘F” 也 不 等 于 “M” 的 结果 是 空 集 。 
口 


最 后 ， 有 一 些 约束 既 不 属于 2.3 节 中 给 出 的 任何 一 类 ， 也 不 是 函数 依赖 或 多 值 依赖 。 代 数 
约束 语言 能 够 表达 很 多 种 类 的 约束 。 下 面 给 出 一 个 例子 。 

例 5.33 ”假设 要 求 一 个 电影 公司 的 经 理 至 少 要 拥有 $10 000 000 的 资产 。 这 样 的 约束 既 不 是 
域 约束 、 单 值 约束 ， 也 不 属于 引用 完整 性 约束 ， 但 是 它 仍然 可 以 用 如 下 代数 约束 表达 。 在 描述 
代数 约束 之 前 ， 首 先 要 对 下 面 两 个 关系 做 0 连接 


MovieExec (name, address, cert#, netWorth) 
Studio(name, address, presC#) 


利用 Studio 中 的 presc# 和 MovieExc 中 的 cert# 相 等 为 条 件 。 这 个 连接 将 把 某 个 制 片 
人 元 组 与 以 该 制 片 人 为 经 理 的 电影 公司 的 相应 元 组 合并 为 一 个 元 组 。 如 果 根 据 约束 要 求 在 合并 


N 
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起 来 后 的 元 组 上 选择 那些 净 资 产值 小 于 1000 万 的 元 组 ， 其 结果 应 该 是 空 集 。 因 此 ， 该 约束 可 以 
表达 为 ， 


OnerWorth<r0000000 (Studio presct-cerct MOVieEXec)=6 


另外 一 种 表达 该 约束 的 方法 是 比较 电影 公司 经 理 证 书号 集合 与 净 资 产值 大 于 等 于 1000 万 的 


制 片 人 的 证 书号 集 ， 前 者 应 该 是 后 者 的 子 集 。 约 束 表达 如 下 : 





NscA( Studio) S eer Oner¥orth> 10000000(Mov ie Exec)) 


5.5.4 习题 


N 
U 
Ur 


习题 5.5.1 对 习题 5.2.1 中 的 关系 表达 约束 要 求 ， 习 题 5.2.1 的 关系 如 下 ; 


Product (maker, model, type) 

PC(model, speed, ram, hd, rd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer (model, color, type, price) 


可 以 用 包含 的 方式 或 者 是 空 集 等 价 的 方式 表达 你 的 约束 ， 指 出 习题 5.2.1 的 数据 中 哪些 违背 
约束 。 

* a) 处 理 速 度 低 于 1000 的 PC 机 ， 出 售 价格 不 能 超过 $1500。 

b) 一 个 屏幕 超过 14 英 寸 的 手提 电脑 至 少 应 有 10G 硬 盘 或 者 出 售 价格 不 超过 $2000。 

! 9 生产 PC 机 的 厂家 不 能 同时 生产 手提 电脑 。 
*!! d 生产 PC 的 厂家 至 少 生产 了 一 种 手提 电脑 ， 其 最 高 主 频 不 低 于 其 生产 的 PC 机 。 

! e) 如 果 一 种 手提 电脑 的 内 存 容量 超过 PC， 那 么 其 价格 一 定 也 高 于 PC。 

习题 5.5.2 用 关系 代数 表达 下 列 约 束 ， 这 些 约束 是 基于 习题 5.2.4 的 关系 。 


Classes(class, type, country, numGuns, bore) 
Ships(name, class, launched) 

Battles(name, date) 

Outcomes(ship, battle, result) 


可 以 用 两 种 风格 来 表达 你 的 约束 ， 即 集合 包含 或 者 空 集 等 价 方式 。 指 出 习题 5.2.4 中 哪些 数 
据 不 符合 以 下 约束 : 

a) 不 存在 火炮 口径 超过 16 英 寸 的 舰 船 类 别 。 

b) 如 果 一 个 类 别 中 的 舰 船 拥有 的 火炮 超过 9 门 ， 那 么 火炮 的 口径 一 定 不 超过 14 英 寸 。 

! ec) 没有 所 拥有 的 舰 船 超过 两 只 的 类 。 

d) 没有 既 拥 有 主力 舰 (battleship ) 又 拥有 巡洋舰 (battlecruiser ) 的 国家 。 
e) 在 一 般 火 炮 少 于 9 门 的 舰 船 被 击 沉 的 战役 中 ， 不 会 有 火炮 超过 9 门 的 舰 船 参战 。 
习题 5.5.3 BEARERS XR C 是 引用 完整 性 约束 : REERTERIEA, Ar, .., AEA 
有 特定 的 值 v，v。，...，v。， 那 么 在 关系 5 中 一 定 有 元 组 在 相应 的 属性 B,，B,，...，B, 上 有 值 
Vi, Va, as Vro 用 关系 代数 来 表达 这 个 约束 
习题 5.5.4 REKR, BEA, Ad, ..., A B8 是 涉及 R 的 属性 的 FD。 用 关系 代数 说 明 这 
个 FD 在 R 中 一 定 成 立 的 约束 。 
习题 5.5.5 ”RR 是 关系 。 假 设 41，A，,，...，A4, Bi, Bo, ..., Bn 是 涉及 R 的 属性 的 MVD。 
用 关系 代数 表达 该 MVD 在 R 中 成 立 的 约束 。 


n 


5.6 小 结 


。 经 典 关系 代数 ( Classical Relational Algebra ): 这 种 代数 给 出 了 大 部 分 关系 模型 的 查询 语言 。 
它 的 基本 操作 有 并 、 交 、 差 、 选 择 、 投 影 、 笛 卡 儿 积 、 自 然 连接 、6 连 接 、 重 命名 等 。 

。 选 择 和 投影 : 选择 操作 得 到 的 结果 关系 是 所 有 满足 选择 条 件 的 元 组 。 投 影 操作 把 不 感 兴 
趣 的 列 从 关系 中 去 掉 ， 形 成 最 终结 果 。 

。 连 接 : 通过 比较 两 个 关系 的 每 一 对 元 组 来 进行 连接 操作 。 在 自然 连接 当中 ， 把 那些 在 两 
个 关系 的 共同 属性 上 相等 的 元 组 接合 起 来 。 在 6 连接 中 ,， 则 是 连接 来 自 两 个 关系 的 一 对 
满足 9 连接 指定 的 选择 条 件 的 元 组 。 

“基于 包 的 关系 : 在 商用 数据 库 系 统 当 中 ， 关 系 实 际 上 是 包 ， 也 就 是 在 关系 中 ， 同 一 个 元 
组 允许 重复 出 现 。 那 些 基于 集合 理论 的 关系 代数 操作 可 以 扩展 到 包 ， 但 是 其 中 某 些 代数 
规则 将 不 再 适用 。 

。 关 系 代数 的 扩展 : 为 了 与 SQL 和 其 他 一 些 查询 语言 的 能 力 相 适应 ， 需 要 一 些 传统 关系 代 
数 中 不 具备 的 算 符 。 关 系 排 序 是 一 个 例子 ， 扩 展 投 影 也 是 ， 它 支持 在 关系 列 上 进行 的 操 
作 。 分 组 、 聚 合 、 外 连接 等 操作 也 都 需要 。 236 
* 分 组 和 聚集 : 聚集 操作 对 关系 的 一 列 加 以 汇总 。 典 型 的 聚集 操作 是 求 和 、 求 平均 、 求 最 
小 值 和 最 大 值 。 分 组 操作 算 符 允许 对 某 个 关系 的 元 组 按照 他 们 在 一 个 或 者 多 个 属性 上 的 
值 分 组 ， 以 便 进 一 步 对 每 个 组 进行 聚集 计算 。 

。 外 连接 : 两 个 关系 的 外 连接 是 先 执行 这 两 个 关系 的 连接 ， 然 后 将 那些 悬浮 的 元 组 (不 能 跟 
任何 元 组 匹配 的 元 组 ) 用 null 值 补 齐 后 ， 也 加 入 到 结果 当中 。 

“关系 代数 约束 : 许多 常见 的 约束 可 以 用 某 个 关系 代数 表达 式 被 另外 一 个 所 包含 的 形式 来 
表达 ， 或 者 用 某 个 关系 代数 表达 式 等 于 空 集 的 等 价 形式 表达 。 这 些 约束 还 包括 函数 依赖 
和 引用 完整 性 约束 。 
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第 6 章 数据 库 语 言 SQL 


关系 数据 库 中 最 普遍 地 用 于 对 数据 库 进行 查询 和 修改 操作 的 语言 叫做 SQL ( 有 时 读 作 
“sequel”)。SQL 的 含义 是 结构 化 查询 语言 ( Structured Query Language )。SQL 中 支持 查询 的 部 
分 在 功能 上 十 分 接近 在 5.4 节 中 介绍 的 扩展 关系 代数 。SQL 还 包括 了 修改 数据 库 的 语句 ( 如 在 关 
系 中 插入 和 删除 元 组 ) 和 定义 数据 库 模 式 的 语句 。 因 此 ，SQL 既 是 数据 操作 语言 ， 也 是 数据 定 
义 语言 。 除 此 之 外 ，SQL 还 包括 许多 其 他 标准 的 数据 库 命令 ， 这 些 将 在 第 7 章 和 第 8 章 介 绍 。 

和 自然 语言 的 方言 一 样 ， 存 在 许多 不 同类 型 的 SQL。 首 先 ， 存 在 着 三 个 主要 的 标准 ， 即 
ANSI ( 美国 国家 标准 机 构 ) SQL; 对 ANSI SQL 修改 后 在 1992 年 采纳 的 标准 ， 称 为 SQL-92 或 
SQL2; 最 近 的 SQL-99 ( 以 前 也 称 为 SQL3 ) 标准 。SQL-99 从 SQL2 扩 充 而 来 并 增加 了 对 象 关 系 
特征 和 许多 其 他 的 新 功能 。 其 次 ， 各 大 数据 库 厂 商 提供 不 同 版 本 的 SQL。 这 些 版 本 的 SQL 不 但 
都 包括 原始 的 ANSI 标准 ， 而 且 还 在 很 大 程度 上 支持 新 推出 的 SQL-92 标 准 。 另 外 ， 它 们 均 在 
SQL2 的 基础 上 做 了 修改 和 扩展 ， 包 含 了 部 分 SQL-99 标 准 。 

本 章 和 接 下 来 的 两 章 着 重 讲述 如 何 使 用 SQL 作 为 查询 语言 。 本 章 的 论述 基于 一 个 通用 (或 
针对 性 的 ) SQL 查询 界面 ， 即 用 户 通过 一 个 计算 机 终端 向 数据 库 提交 查询 和 修改 请 求 ， 查 询 结 
果 在 使 用 的 终端 上 显示 。 在 这 里 把 SQL 作为 一 个 独立 的 查询 语言 。 

下 一 章 讨论 约束 和 触发 器 一 用 户 对 数据 库 的 内 容 加 以 控制 的 另外 一 种 方式 。 第 8 章 的 内 容 
包括 在 传统 的 程序 设计 语言 中 如 何 进行 有 关 数 据 库 程序 设计 。 本 章 和 下 两 章 讨论 使 用 的 SQL 遵 
从 SQL-99 标 准 ， 几 乎 所 有 的 商用 数据 库 系 统 以 及 较 早 的 标准 都 包括 书 中 介绍 的 SQL 主要 功能 。 

这 几 章 的 内 容 是 让 读者 对 SQL 有 一 个 初步 的 了 解 ， 难 度 接 近 和 人 门 教程 ， 因此 所 讲解 的 主要 
内 容 集 中 在 SQL 最 常用 的 部 分 上 。 要 想 了 解 一 些 语言 细节 和 不 同 版 本 的 语言 差异 可 以 阅读 本 章 
的 参考 文献 。 


6.1 SQL 中 的 简单 查询 


SQL 中 最 简单 的 查询 是 找 出 关系 中 满足 特定 条 件 的 元 组 ， 这 种 查询 和 关系 代数 中 的 选择 操 
作 类 似 。 和 所 有 的 SQL 查询 差不多 ， 简 单 查询 使 用 三 个 保留 字 SELECT、FROM 和 WHERE 来 表 
示 一 个 SQL 查询 语句 。 





Movie(title, year, length, inColor, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 

MovieStar(name, address, gender, birthdate) 

MovieExec(name, address, cert#, netWorth) 

Studio(name, address, presC#) 


图 6-1 和 前 面相 同 的 数据 库 模式 例子 


例 6.1 下面 例子 中 使 用 5.1 节 描述 的 数据 库 模 式 。 在 图 6-1 中 这 些 模式 再 次 出 现 。6.6 节 中 
将 介绍 怎样 使 用 SQL 表达 模式 。 这 里 先 假设 在 SQL 中 使 用 5.1 节 的 关系 和 域 (数据 类 型 )。 
第 一 个 查询 从 关系 


Novie(title, year, length, inColor, studioName, producerC#) 
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中 找 出 由 Disney 制 片 公司 在 1990 年 制作 的 电影 ， 其 SQL 语句 为 


SELECT * 
FROM Movie 
WHERE studioName = ’Disney’ AND year = 1990; 


该 查询 语句 显示 了 大 部 分 SQL 查询 语句 的 结构 特征 Ellselect-from-where 形式 ， 它 的 特点 


“FROM 于 句 给 出 查询 所 引用 的 关系 ， 在 本 例 中 查询 引用 的 关系 是 Movie。 






阅读 和 书写 查询 语句 的 技巧 

检查 一 个 select-from-where 查 询 的 最 简单 的 方式 是 ， 首 先 查看 FROM 子 名 ， 找 出 该 查 
询 涉 及 到 了 哪些 关系 。 接 着 查看 WHERE 子 句 ， 了 解 要 找 出 的 有 关 元 组 ， 它 对 查询 很 重要 。 
最 后 再 通过 SELECT 子 句 得 到 输出 结果 。 同 样 地 ， 在 写 查 询 语句 的 时 候 也 要 遵照 同样 的 
顺序 ， 即 先 FROM 再 WHERE 最 后 SELECT。 这 样 做 对 理解 语句 非常 有 用 。 


“WHERE 子 句 是 一 个 条 件 子 句 ， 就 像 关 系 代数 中 的 选择 条 件 。 和 查询 匹配 的 元 组 必须 满足 

此 条 件 。 在 本 例 中 ， 条 件 是 : 元 组 中 studioName 属 性 值 为 ， Disney’ ; year 属 性 值 

为 1990。 满 足 这 两 个 约束 的 元 组 符合 条 件 ， 否 则 不 符合 条 件 。 

“SELECT 子 句 决定 满足 条 件 的 元 组 的 哪些 属性 应 该 在 结果 中 列 出 。 例 子 中 的 * 表 示 列 出 元 

组 所 有 的 属性 。 查 询 结果 就 是 处 理 后 的 元 组 所 形成 的 关系 。 

解释 查询 的 一 种 方法 是 逐个 考虑 FROM 子 句 中 涉及 的 关系 元 组 。 首 先 WHERE 子 句 应 用 到 元 
组 上 ， 更 准确 地 说 ， 所 有 在 WHERE 子 句 出 现 的 属性 由 元 组 中 对 应 该 属性 的 值 来 代替 ， 如 果 计 算 
表达 式 为 真 ， 该 元 组 在 SELECT 中 指定 的 字段 值 作为 结果 中 的 一 个 元 组 。 这 样 ， 查 询 的 结果 就 
是 Movie 元 组 中 那些 由 Disney 在 1990 年 制作 的 电影 。 例 如 Pretty Woman. 

当 SQL 查询 处 理 器 碰 到 Movie 里 的 一 个 元 组 


title year | length | inColor | studioName | producerC# 
Pretty Woman | 1990 | 119 true | Disney 999 


(这 里 ，999 是 一 个 虚构 的 电影 制 片 人 的 证 书号 ) 将 WHERE 子 句 条 件 中 的 studioName 换 成 
值 ” Di sney’，year 换 成 值 1990， 因 为 这 是 所 说 元 组 的 那些 属性 的 值 。 于 是 WHERE 子 句 变 成 了 


WHERE ’Disney’ = ’Disney’ AND 1990 = 1990 


显然 该 条 件 为 真 ， 这 样 Pretty Woman 通过 了 WHERE 子 句 的 检查 并 成 为 查询 结果 的 一 部 分 。 口 
6.1.1 SQL 中 的 投影 

如 果 需 要 ， 可 以 减少 选 定 的 元 组 的 字段 ， 即 将 SQL 查询 中 产生 的 关系 投影 到 它 的 一 些 属性 
上 去 。 在 SELECT 子 句 中 * 所 在 的 位 置 上 ， 如 果 列 出 的 是 FROM 子 句 中 涉及 的 关系 的 部 分 属性 ， 
那么 结果 将 被 投影 到 所 列 出 的 属性 之 上 。 。 

例 6.2 修改 例 6.1 的 查询 ， 仅 仅 输出 电影 的 标题 和 长 度 。 其 SQL 语句 是 

SELECT title, length 


FROM Movie 
WHERE studioName = ’Disney’ AND year = 1990; 







日 SQL 中 的 SELEcT 保 留 字 实 际 上 和 关系 代数 中 的 投影 操作 符 对 应 ， 而 关系 代数 中 选择 操作 符 则 对 应 于 SQL 坦 
询 中 的 WHERE 子 句 。 
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该 结果 是 一 个 有 两 列 的 表 。 两 个 列 的 标题 分 别 为 title 和 1Length。 表 中 列 出 的 元 组 是 成 
对 的 ， 每 个 元 组 包括 电影 的 标题 和 长 度 。 每 部 电影 由 Disney 在 1990 年 制作 。 这 个 关系 模式 和 它 
的 一 个 元 组 表现 为 : 


title length 
Pretty Woman | 119 
. . 口 
有 时 人 们 希望 结果 关系 的 列 标题 和 FROM 子 句 中 给 出 的 关系 的 属性 有 不 同 的 名 字 。 这 可 以 
通过 在 属性 后 面 跟 一 个 AS 保留 字 和 一 个 别名 完成 。 该 别名 成 为 结果 关系 的 列 标题 。 保 留 字 As 
是 可 选 的 ， 即 别名 可 以 直接 跟 在 它 所 代表 的 表达 式 之 后 而 不 必 在 两 者 间 揪 人 任何 标记 。 
例 6.3 修改 例子 6.2， 产 生 一 个 关系 ， 用 属性 name 和 duration 替 换 Litle 和 1ength。 
SELECT title AS name, length AS duration 


FROM Movie 
WHERE studioName = ’Disney’ AND year = 1990; 


结果 与 例 6.2 中 的 元 组 集 相 同 ， 但 是 列 标题 变 成 了 name 和 auraticon。 结 果 关 系 可 能 为 ; 
name duration 


Pretty Woman | 119 
口 


SELECT 子 句 的 另 一 种 选项 是 用 表达 式 取代 属性 。 换 句 话 说，SELECT 列 表 的 功能 与 5.4.5 
节 中 的 扩展 投影 中 的 列表 一 样 。 在 6.4 节 还 可 以 看 到 SELECT 列表 中 包含 .4.4 节 中 讲 到 的 y 聚集 
操作 。 

例 6.4 ”假定 需要 例 6.3 的 输出 ， 但 是 要 把 长 度 由 分 钟表 示 改 为 小 时 表示 ， 可 以 把 该 例 的 
SELECT 子 名 改 为 “ 


SELECT title AS name, length+0.016667 AS lengthInHours 
该 查询 结果 是 与 前 例 查询 同样 的 电影 ， 但 是 它 的 长 度 是 以 小 时 计算 ,第 二 列 对 应 的 标题 改 
名 为 1engthIinHours， 如 下 所 示 : 








name lengthInHours 
Pretty Woman | 1 
98334. 


口 


例 6.5 人们 甚至 可 以 将 一 个 常量 作为 表达 式 在 SELECT 子 句 中 列 出 ， 这 样 艇 似乎 没有 什么 
意义 ， 但 有 些 应 用 需要 输出 一 些 有 意义 的 词语 到 SQL 的 显示 结果 中 去 。 下 面 的 查询 
SELECT title, length*0.016667 AS length, ’hrs.’AS inHours 


FROM Movie 
WHERE studioName = ’Disney’ AND year = 1990; 


产生 的 元 组 如 下 : 
title | length inHours 


Pretty Woman | 1.98334 | hrs. 
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这 里 将 第 三 列 命名 为 inHours， 使 得 它 和 第 二 列 的 标题 在 意义 上 相符 。 输 出 结果 中 的 每 
一 个 元 组 在 第 三 列 包含 常量 hrs .这 样 看 起 来 好 像 它 是 表示 第 二 列 值 的 计量 单位 。 口 
6.1.2 SQL 中 的 选择 

关系 代数 中 的 选择 操作 符 在 SQL 中 是 通过 SQL 的 WHERE 子 句 表 示 。WHERE 子 句 中 的 表达 式 
(包括 条 件 表达 式 ) 和 普通 的 计算 机 语言 ( 如 C 和 Java ) 中 的 表达 式 类 似 。 


不 区 分 大 小 写 
SQL 是 大 小 写 无 关 的 ， 它 把 大 写 和 小 写字 母 作 看 做 相同 。 举 个 例子 ， 对 于 保留 字 
FROM， 无 论 写 成 From 或 者 Erom 甚 至 FrOm 都 是 正确 的 。 关 系 名 、 属 性 名 和 别名 都 同样 


是 大 小 写 无 关 的 。 只 有 引号 里 面 的 字符 才 是 区 分 大 小 写 的 。 所 以 FROM” 和 
> from’ 是 不 同 的 字符 串 。 当 然 ， 它 们 都 不 是 保留 字 FEROM。 


可 以 通过 值 比较 运算 来 建立 表达 式 ， 比 较 运 算 使 用 六 个 常用 的 比较 运算 符 : =. oO <, >, 
<= 和 >=。 除 了 过 在 SQL 中 表示 “不 等 于 ”， 相 应 于 C 语 言 中 的 != 运 算 符 之 外 ， 其 他 均 和 C 语 言 
相同 。 

常量 以 及 跟 在 FROM 后 面 的 关系 的 属性 都 是 可 以 比较 的 。 在 进行 比较 之 前 也 可 以 使 用 普通 
的 算术 运算 符 如 +、* 等 作用 于 在 数值 上 。 例 如 (year-1930)*(year-1930)<100 对 于 那些 
和 1930 之 间 的 差别 小 于 等 于 9 的 年 份 的 值 为 真 。 也 可 以 通过 ll 连接 运算 符 对 字符 串 作 连接 运算 。 





例如 ”foo 11，”bar” 的 运算 结果 为 ”foobar’。 
例子 6.1 中 提 到 的 一 个 比较 运算 
studioName = ’Disney’ 


将 判断 关系 Movie 的 studioName 属 性 是 否 与 常量 ' Disney” 相 等 。 这 是 一 个 字符 串 常 量 ， 
在 SQL 中 ,字符 串 常量 是 由 单 引号 括 起 的 字符 串 表 示 。 数 值 常量 ， 如 整数 和 实数 ， 都 可 以 作为 
常量 。SQL 使 用 普通 的 记 数 法 表示 实数 ， 如 - 12.34 或 1.23E45。 

比较 运算 的 结果 是 一 个 布尔 值 : 要 么 TRUE 要 么 FALSE ©, 布尔 值 可 以 通过 逻辑 运算 符 AND、 
OR 和 NOT 来 进行 组 合 ，AND、OR、NOoT 分 别 为 并 、 或 和 非 运算 。 例 如 ， 在 例子 6.1 中 已 经 看 到 
使 用 AND 运 算 符 来 组 合 两 个 比较 表达 式 。 该 例 的 WHERE 子 名 为 真 ， 当 且 仅 当 两 个 比较 都 为 真 ， 
即 当 制 片 三 名 称 为 ” Disney” 并 且 制 作 年 份 是 1990 时 整个 WHERE 子 句 为 真 。 下 面 再 看 一 些 包 
含 复杂 WHERE 子 句 的 查询 语句 。 

例 6.6 下 面 的 语句 查找 所 有 在 1970 年 以 后 制作 的 黑白 影片 。 

SELECT title 


FROM Movie 
WHERE year > 1970 AND NOT inColor; 


SQL 查询 和 关系 代数 
到 目前 为 止 所 看 到 的 简单 的 SQL 查询 都 具有 以 下 形式 


SELECT L 
FROM R 
WHERE C 





O 关于 布尔 值 的 一 些 特殊 情况 ， 参 阅 6.1.6 小 节 。 


其 中 是 一 个 表达 式 列 表 ，R 是 一 个 关系 ，C 是 一 个 条 件 。 这 种 表达 式 和 如 下 形式 的 关系 
代数 表达 式 的 意义 相同 : 


T (Oc (R)) 
即 ， 首 先 对 FROM 子 名 关系 中 的 每 个 元 组 ,使 用 WHERE 子 句 中 指定 的 条 件 进行 得 选 ， 然 后 
投影 到 SELECT 子 句 中 的 属性 或 表达 式 列表 上 。 


这 个 条 件 中 ， 再 一 次 对 两 个 布尔 表达 式 进行 AND 运 算 。 第 一 个 是 一 个 普通 的 比较 ， 而 第 二 
个 是 对 属性 incolor 作 NoT 运 算 。 在 这 里 直接 使 用 incoLor 属 性 是 可 以 的 ， 因为 jncolor 是 
布尔 类 型 。 

下 面 ， 考 虑 查询 

SELECT title 

FROM Movie 

WHERE (year > 1970 OR length < 90) AND studioName = ’MGM’; 
这 个 查询 要 找 出 由 MGM 制 片 厂 制作 的 影片 名 称 ， 它 们 要 么 在 1970 以 后 制作 要 么 影片 长 度 小 于 
90 分 钟 。 注 意 ， 比 较 表 达 式 可 以 用 括号 括 起 来 。 这 里 使 用 括号 是 因为 逻辑 运算 符 优 先 级 的 原因 。 
在 SQL 中 逻辑 运算 符 的 优先 级 和 其 他 高 级 语言 相同 ;AND 的 优先 级 高 于 OR， NOT 具 有 最 高 优先 
级 。 O 


6.1.3 字符 串 比较 

当 两 个 字符 串 里 的 字符 序列 完全 相同 时 称 两 个 字符 串 相等 。SQL 人 允许 不 同类 型 的 字符 串 ， 
例如 固定 长 度 字符 数组 和 可 变 长 度 的 字符 链表 。。 因 此 需要 考虑 不 同 字符 串 类 型 之 间 的 转换 。 
Am, FRP foo 可 以 作为 一 个 固定 长 度 为 10 同 时 包括 7 个 填充 字符 的 字符 串 存储 ， 也 可 以 使 
用 一 个 变 长 字符 串 存 储 。 比 较 时 可 能 期 望 两 种 类 型 的 字符 串 是 相等 的 ， 并 且 等 于 字符 串 常量 
”foo ' 。 更 多 关于 字符 串 的 物理 存储 将 在 12.1.3 小 节 中 介绍 。 


位 串 的 表示 
二 进 制 位 囊 是 一 个 以 B 开 头 ， 后 面 跟着 由 单 引号 括 起 来 的 0 和 1 事 ， 例 如 B， O11? À 
示 包 含 3 个 位 的 囊 ， 第 一 位 为 0， 其 他 两 位 为 1。 也 可 以 用 十 六 进 制 表示 ， 即 用 义 打头 后 面 





跟着 由 单 引号 括 起 来 的 十 六 进 制 数字 (0 到 9 及 a 到 f，a 到 /表示 10 到 15 )。 例 如 ，X”7ff? 
表示 一 个 十 二 位 长 的 位 囊 ， 由 一 个 0 和 后 面 的 十 一 个 1 构成 。 每 一 个 十 六 进 制 数字 表示 4 比 
特 位 ， 开 头 的 0 不 能 省 去 。 





当 使 用 如 < 或 >= 等 比较 运算 符 对 字符 串 作 比 较 运 算 时 ， 实 际 上 比较 的 是 它们 的 词典 顺序 
( 如 字典 顺序 或 字母 表 顺 序 )。 如 果 aqja2..….an 和 4b1b2...bm 是 两 个 字符 串 ， Rai <b Rai=b Hab 
或 a=b,, a=b,Has<b;, 如 此 下 去 时 ， 则 前 者 小 于 后 者 。 Mn<mF- Hasap...a, = bib2...bs 时 ， 字 
符 串 oaz…a <bib2.…bm， 也 就 是 第 一 个 字符 串 正 好 是 第 二 个 字符 串 的 一 个 前 级 。 例 如，fodder’ 
< ”foo ， 因 为 每 个 字符 串 的 头 两 个 字符 相同 都 是 fo， 而 且 fodder 中 的 第 三 个 字符 在 字母 表 
中 顺序 是 在 foo 的 第 三 个 字符 之 前 。 同 样 的 , ”bar，<，”bargin， 因 为 前 者 正好 是 后 者 的 一 
个 前 缀 。 对 于 字符 串 的 等 值 比较 ， 有 时 需要 对 不 同类 型 的 字符 串 进行 类 型 转换 。 


@ ”至少 可 以 把 两 种 字符 串 分 别 看 作 以 数组 和 链表 的 方式 存储 。 字符 串 的 实际 存储 方式 依赖 于 具体 实现 ，SQL 
标准 不 作 具体 描述 。 
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SQL 也 提供 了 一 种 简单 的 模式 匹配 功能 用 于 字符 串 比 较 ， 字 符 串 比较 的 男 一 种 方式 是 

s LIKE p . 
其 中 * 是 一 个 字符 串 ，p 是 模式 ， 即 一 个 可 能 使 用 了 两 个 特殊 字符 多 和 _ 的 字符 串 。p 中 普通 字 
符 仅 能 匹配 * 中 与 其 相同 的 字符 ， 而 g% 能 匹配 * 中 任何 任意 长 度 ( 包括 零 长 度 ) 的 字符 串 ，p 中 的 
_ 则 能 匹配 * 中 任何 一 个 字符 。 该 表达 式 为 真 当 且 仅 当 字 符 串 * 匹 配 模式 p。 同 样 的 ，s NOT 
LIKE 为 真 时 当 且 仅 当 s 不 匹配 模式 P。 

例 6.7 ”如果 记得 某 个 电影 的 名 字 是 “Star something” 而 且 知 道 something 是 一 个 四 个 字母 
的 单词 。 则 可 以 通过 如 下 查询 找到 电影 的 名 字 


SELECT title 

FROM Movie 

WHERE title LIKE ’Star ____ 

这 个 查询 询问 电影 名 字 由 九 个 字符 组 成 的 ， 开 始 的 五 个 字符 是 star 加 一 个 空格 。 后 面 四 
个 字符 可 以 是 任意 四 个 字符 ， 因 为 每 一 个 _ 可 以 匹配 任何 字符 。 查 询 结果 可 能 是 满足 完全 匹配 


要 求 的 电影 名 字 的 集合 ， 如 Star Wars 或 Star Treko 口 
例 6.8 找 出 所 有 的 电影 名 中 含有 所 有 格 ”s 的 电影 ， 查 询 语句 为 


SELECT title 

FROM Movie 

WHERE title LIKE °%?’s%’; 

要 理解 这 个 模式 ， 需 要 先 理 解 SQL 中 的 单 引 导 。 括 在 字符 串 两 边 的 单 引 号 是 不 能 代表 字符 
串 中 的 单 引号 的 。SQL 约 定 ， 字 符 串 中 两 个 连续 的 单 引 号 表示 一 个 单 引号 ， 不 作为 字符 串 的 结 
束 符 。 所 以 模式 中 的 '”s 表 示 一 个 单 引 号 后 面 跟 一 个 s。 

在 ”s 两 边 的 两 个 % 符 号 可 以 匹配 任何 形式 的 字符 串 。 所 以 只 要 包括 子 串 ，s 的 字符 串 都 能 
匹配 该 模式 。 该 查询 结果 包括 如 Logan’s Ran 或 者 4jicesy Restaurant 的 电影 。 g 


6.1.4 日 期 和 时 间 

SQL 的 实现 版 本 通常 将 时 间 和 日 期 作为 特殊 的 数据 类 型 。 其 值 常常 表示 成 不 同形 式 如 
5/14/1948 或 14 May 1948。 这 里 仅仅 描述 SQL 标 准 中 时 间 和 日 期 的 特定 表示 法 。 

日 期 常量 是 由 保留 字 DATE 后 跟 一 个 单 引 号 揪 起 的 特定 形式 字符 串 组 成 。 例 如 DATE， 
1948-05-14” 是 符合 规范 的 表示 。 前 四 个 数字 字符 表示 年 份 ， 紧 接着 后 面 跟 一 个 连 字符 号 ， 
接 下 来 的 两 个 数字 字符 表示 月 份 。 注 意 ， 在 给 出 的 例子 中 单数 字 的 月 份 前 补 上 了 一 个 0。 最 后 
是 一 个 连 字符 各 两 个 数字 字符 表示 日 。 和 月 份 的 表示 一 样 ， 必 须 用 两 位 数字 表示 日 。 

同样 ， 时 间 常 量 由 保留 字 TIME 后 跟 一 个 单 引 号 字符 串 组 成 。 该 字符 串 用 两 个 字符 表示 小 
时 ， 采 用 24 小 时 制 。 接 着 是 一 个 冒号 后 跟 两 个 字符 表示 分 钟 。 接 着 又 是 一 个 冒号 后 跟 两 个 字符 
表示 秒 。 如 果 还 要 将 秒 细 分 ， 则 继续 在 后 面 跟 一 个 小 数 点 和 任意 多 的 数字 字符 。 例 如 : TIME 
”15;00:02.5” 表 示 下 午 3 点 过 两 秒 半 。 


LIKE 表 达 式 中 的 转 义 字符 

如 果 要 在 LIKE 表 达 式 的 模式 中 直接 使 用 8 和 _ 字 符 该 怎么 办 呢 ? SQL 没 有 采用 特殊 的 
字符 作为 转 义 字符 ( 如 UNIX 中 的 反 斜 线 )， 对 于 单个 模式 SQL 允 许 使 用 任何 一 个 字符 作 
为 转 义 字符 。 通 过 在 模式 后 面 跟 一 个 保留 字 ESCAPE 和 一 个 用 单 引 号 括 起 来 的 字符 指定 
转 义 字符 。 跟 在 转 义 字符 后 面 的 % 和 _ 将 作为 其 本 身 所 表示 的 字符 出 现在 模式 字符 囊 中 ， 
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而 不 表示 匹配 一 个 或 多 个 字符 。 例 如 ， 
s LIKE ?x%%x%’ ESCAPE ’x’ 


使 得 x 成 为 模式 xg%g%xg 中 的 转 义 字符 。 字 串 x% 表 示 单 个 字符 %。 这 个 模式 匹配 任何 以 字 
符 %$ 开 头 并 同时 以 它 结尾 的 字符 串 。 注 意 ， 这 里 仅仅 中 间 的 $ 能 匹配 “任何 字符 囊 ”。 





作为 一 个 可 选项 ， 可 以 表示 为 在 格林 威 治 (GMT) 时 间 之 前 ( 用 一 个 加 号 表示 ) 和 格林 威 治 
时 间 之 后 ( 用 一 个 减 号 表示 ) 若干 小 时 和 分 钟 的 时 间 。 GMO, TIME’ 12:00:00-8:00' # 
示 太 平 洋 标准 时 间 的 正午 ， 正 好 比 格林 威 治 时 间 晚 八 个 小 时 。 

如 果 要 将 日 期 和 时 间 组 合 起 来 就 要 用 到 TIMESTAMP 类 型 。 通 过 关键 字 TIMESTAMP， 一 个 
日 期 值 后 跟 一 个 空格 和 一 个 时 间 值 来 组 合 表 示 。 例 如 ，TIMESTAMP” 1948-05-14 
12 :00:00 ”表示 1948 年 5 月 14 号 正午 。 

可 以 使 用 字符 串 和 数值 运算 中 的 比较 运算 符 对 日 期 和 时 间 进 行 比较 运算 。 即 < 对 于 日 期 比 
较 意 味 着 前 一 个 日 期 比 第 二 个 早 ; < 对 时 间 而 言 也 是 前 者 早 于 后 者 〈 对 于 同一 天 的 时 间 来 说 )。 
6.1.5 空 值 和 涉及 空 值 的 比较 

SQL 人 允许 属性 有 一 个 特殊 值 NULL 称 做 空 值 。 对 于 空 值 有 许多 不 同 的 解释 。 下 面 是 一 些 最 
常见 的 解释 : 

1. 未知 值 (value unknown): 即 知道 它 有 一 个 值 但 不 知道 是 什么 ， 例 如 一 个 未 知 的 生日 。 

2. 不 适用 的 值 (value inapplicable ):“ 任 何 值 在 这 里 都 没有 意义 ”， 例 如 ， 对 于 
MovieStar 关 系 ， 如 果 有 一 个 spouse 属 性 表示 其 配偶 。 对 于 一 个 未 婚 的 影星 这 个 属性 可 能 为 
NULL 值 ， 不 是 因为 不 知道 其 配偶 的 名 字 ， 而 是 因为 没有 配偶 。 

3. 保留 的 值 (value withheld ):“ 属 于 某 对 象 的 但 我 们 无 权 知 道 的 值 ”。 例 如 ， 未 公布 的 电 
话 号 码 在 phone 属 性 中 显示 为 NULL 值 。 

在 5.4.7 节 中 已 看 到 使 用 外 连接 操作 符 如 何 导致 某 些 元 组 中 产生 了 NULL 值 。SQL 人 允许 外 连 
接 并 且 在 外 连接 中 产生 空 值 。 人 参见 6.3.8 节 。SQL 还 有 一 些 其 他 的 方式 产生 空 值 ， 例 如 ， 如 在 
6.5.1 节 中 将 会 看 到 ， 元 组 的 某 些 播 入 产生 空 值 。 

在 WHERE 子 句 中 ， 要 考虑 到 元 组 中 的 空 值 可 能 带 来 的 影响 。 当 对 空 值 进行 运算 时 ， 有 两 个 
重要 的 规则 要 记 住 : 

1. 对 NULL 和 任何 值 (包括 另 一 个 NULE 值 ) 进行 算术 运算 如 x 和 + ， 其 结果 仍然 是 空 值 。 

2. 当 使 用 比较 运算 符 ， 如 = 或 >， 比 较 NULL 值 和 任意 值 (包括 另 一 个 NULL 值 )， 结 果 都 
为 UNKNOWN 值 。 值 UNKNOWN 是 另外 一 个 和 TRUE 和 FALSE 相 同 的 布尔 值 。 我 们 将 简介 地 介绍 
UNKNOWN 值 的 操作 。 

可 是 ， 我 们 要 记 住 虽然 NULL 也 是 一 个 可 以 出 现在 元 组 中 的 值 ， 但 是 它 不 是 一 个 常量 。 因 
此 可 以 利用 上 面 的 规则 对 值 为 NULL 的 表达 式 进行 运算 ， 但 是 不 可 以 直接 将 NULL 作 为 一 个 操 
作 数 。 

例 6.9 如果 x 的 值 是 NULL， 那么 x+3 的 值 也 是 NULL,， 但 是 NULL+3 不 是 合法 的 SQL 表 达 式 。 
同样 地 ， 表 达 式 x = 3 的 值 是 UNKNOWN， 因 为 x 值 为 NULL， 不 能 确定 x 是 否 等 于 3。 而 比较 表达 
式 NULL=3 是 非法 的 SQL 表达 式 。 口 

顺便 提 一 下 ， 正 确 判 断 x 的 值 是 否 为 NULL 的 方式 是 用 表达 式 x IS NULI， 表 示 。 如 果 x 的 
值 为 NUDL 那 么 该 表达 式 为 TRUE 否则 为 FALSE。 例 如 ，x IS NOT NULL 值 为 TRUE 除 非 x 的 
值 是 NULL。 
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6.1.6 布尔 值 UNKNOWN 

在 6.1.2 节 的 比较 运算 结果 要 人 么 是 TRUE 要 么 是 FALSE 值 。 这 两 种 布尔 值 可 以 通过 逻辑 运算 
符 AND、cR 和 NoT 组 合 在- 起。 由 于 上 面 刚刚 讲 到 的 NULIL 值 出 现 ， 比 较 结果 可 能 产生 第 三 个 
布尔 值 : UNKNOwN。 现 在 必须 知道 逻辑 运算 符 对 于 三 种 布尔 值 进行 运算 的 规则 。 

可 以 用 一 种 简单 的 方式 来 记 住 理解 。 把 ?TRUE 看 做 1 ( 完全 真 )，FALSE 看 做 0 ( 完全 假 )， 
UNKNOWN 看 做 1/2 ( 处 于 真 假 之 间 )。 这 样 : 






使 用 空 值 的 小 缺陷 

NULL 值 在 SQL 中 通常 球 示 “一 个 未 知 的 但 是 的 确 存 在 的 值 "。 然 而 这 样 表示 有 时 和 
人 们 的 直觉 不 符合 。 例 如 ， 假 定 x 是 某 个 元 组 的 一 字段 ， 该 字段 的 域 类 型 是 整 型 。 因 此 可 
以 推断 无 论 整 数 x 的 值 是 什么 0'x 的 结果 肯定 是 0。 但 是 如 果 x 的 值 是 NULL ， 应 用 6.1.5 节 
的 规则 (1)，0 和 NULL 的 积 却 是 NULL。 同 样 地 x-x 的 值 肯 定 是 0， 因 为 一 个 整数 减 去 它 本 
身 结 果 为 0， 而 应 用 规则 (1 ) 再 次 导致 结果 为 NULL 。 


1. 两 个 布尔 值 之 间 的 AND 运 算 结果 取 两 者 之 间 最 小 的 值 。 如 果 x 或 y 两 者 之 一 为 FALSE， 则 
x AND y 为 FALSE; 如 果 两 者 都 不 为 FALSE 但 是 至 少 有 一 个 是 UNKNOWN， 则 为 UNKNOWN; 当 
二 者 缘 为 TRUE 时 结果 为 TRUE。 

2. 两 个 布尔 值 的 OR 运算 取 两 者 之 间 较 大 值 。 当 两 者 之 一 为 真 ， 则 x OR y 为 TRUE; 当 两 者 
都 不 为 TRUE 但 是 至 少 有 一 个 为 UNKNOWN， 则 结果 为 UNKNOWN; 当 两 者 都 为 FALSE， 则 结果 为 
FALSE, 

3. 布尔 值 y 的 非 值 为 1-v。 当 x 为 FALSE， 则 NOT x 的 值 为 TRUE， 当 x 的 值 为 TRUE， 则 NOT x 
为 FALSE， 当 x 的 值 为 UINKNOWN 时 ， 其 结果 仍然 为 UINKNOWN。 

图 6-2 是 对 操作 数 x 和 ?赋予 布尔 值 ， 形 成 九 种 不 同 组 合 时 三 种 逻辑 运算 的 结果 。 最 后 一 个 
操作 符 NOT 的 计算 结果 仅仅 作用 于 x。 







TRUE TRUE TRUE TRUE FALSE 
TRUE UNKNOWN | UNKNOWN TRUE FALSE 
TRUE FALSE FALSE TRUE FALSE 
UNKNOWN TRUE UNKNOWN TRUE UNKNOWN 


UNKNOWN UNKNOWN | UNKNOWN UNKNOWN UNKNOWN 
UNKNGWN FALSE FALSE UNKNOWN UNKNOWN 
FALSE TRUE FALSE TRUE TRUE 
FALSE UNKNOWN | FALSE UNKNOWN TRUE 
FALSE FALSE FALSE FALSE TRUE 


图 6-2 三 值 逻 辑 真 值 表 
SQL 的 条 件 ， 即 出 现在 select-from-where 语 名 中 的 WHERE 子 句 ， 被 应 用 到 关系 的 每 一 个 元 
组 。 对 于 每 一 个 元 组 ， 条 件 可 以 有 三 种 值 ，TURE、FALSE 或 UNKNOWN。 但 是 上 只 有 条 件 为 
TRUE 时 ,元 组 才 符合 要 求 。 而 那些 值 为 FALSE 和 UNKNOWN 的 元 组 则 不 在 查询 结果 之 中 。 这 种 
情形 导致 了 一 个 类 似 “ 使 用 空 值 的 小 缺陷 ” 框 中 提 到 的 问题 。 下 面 的 例子 说 明 这 一 点 
例 6.10 ”假定 对 关系 Movie (title, year, length, inColor, studioName, 
producerC#) 进行 如 下 查询 : 


SELECT * 
FROM Movie 
WHERE length <= 120 OR length > 120; 
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直观 地 看 ， 查 询 期 望 返回 关系 Movie 的 所 有 元 组 ， 因 为 电影 的 长 度 要 么 小 于 或 等 于 120 要 么 大 
于 120。 

但 如 果 该 关系 某 个 元 组 的 Length 字 段 具 有 NULL 值 ,那么 表达 式 1ength<=120 和 表达 式 
length>120 的 结果 都 为 UNKNOWN。 两 个 UNKNOWN 的 OR 运算 仍然 是 UNKNOWN。 这 样 WHERE 子 
名 也 为 UNKNOWN。 从 而 导致 该 元 组 不 出 现在 结果 集合 里 面 。 这 样 ， 该 查询 的 真正 意义 变 成 了 

“从 关系 Movie 找 出 所 有 1ength 字 段 为 非 空 的 元 组 ”。 C] 


6.1.7 输出 排序 

有 时 需要 对 查询 结果 以 某 种 顺序 表示 。 可 以 基于 任何 一 个 属性 来 排序 ， 并 且 将 其 他 的 属性 
跟 在 它 之 后 进行 约束 。 当 第 一 属性 值 相同 时 ， 将 第 二 个 属性 作为 排序 的 依据 ， 如 此 类 推 。 类 似 
5.4.67 PR EVE. fEselect-from-whereif Aam L F Fy AF HER. 


ORDER BY <list of attributes> 


排序 的 默认 序 为 按 升序 排列 ， 但 也 可 以 通过 给 某 个 属性 加 上 保留 字 DESC (descending ) 按 
照 其 降序 排列 。 同 样 的 可 以 指定 保留 字 ASC 按 升序 排列 ，ASC 可 以 省 略 。 

例 6.11 下 面 的 例子 是 对 例 6.1 的 查询 进行 重 写 ， 找 出 Disney 在 1990 年 制作 的 电影 ， 该 关系 
为 


Movie(title, year, length, inColor, studioName, producerC#) 


其 结果 按照 电影 的 长 度 排列 ， 短 的 排 在 前 面 。 如 果 两 部 电影 长 度 相同 ， 则 按 电影 名 的 字典 顺序 
排列 。 查 询 按 如 下 方式 写 


SELECT * 
FROM Movie . 
WHERE studioName = ’Disney’ AND year = 1990 
ORDER BY length, title; 口 
6.1.8 习题 
* 习题 6.1.1 如 果 一 个 查询 的 SELECT 子 句 为 
SELECT A B 
4 和 8 是 不 同 的 属性 还 是 B 是 4 的 别名 ? 


习题 6.1.2 根据 给 出 的 电影 数据 库 样 例 用 SQL 语句 窟 出 后 面 的 查询 。 


Movie(title, year, length, inColor, studioNane, producerC#) 
StarsIn(movieTitle, movieYear, starName) 

MovieStar (name, address, gender, birthdate) 

MovieExec(name, address, cert#, netWorth) 

Studio(name, address, presC#) 


a) 找 出 电影 制 片 三 MGM 的 地 址 。 
b) 找 出 Sandra Bullock's 的 生日 。 
* c) 找 出 那些 1980 年 制作 ， 或 者 电影 名 中 包括 “Love” 单 词 的 电影 中 出 现 的 所 有 电影 明 
星 。 
d) 找 出 所 有 净 产 值 ( netWorth ) 为 $10 000 000 的 出 品 人 。 
©) 找 出 所 有 是 男性 或 是 住 在 Malibu( 地 址 中 包括 MalLibu 字 符 串 ) 的 电影 明星 。 | 
习题 6.1.3 ”使 用 习题 5.2.1 中 提供 的 数据 库 模式 用 SQL 语句 写 出 后 面 的 查询 ， 并 使 用 习题 


* 





i> 


nN 
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5.2.1 提 供 的 资料 写 出 查询 结果 。 

Product (maker model, type) 

PC(model, speed, ram, hd, rd, price) 

Laptop(model, speed, ram, hd, screen, price) 

Printer (model, color, type, price) 

a) 找 出 所 有 价格 在 $1200 以 下 的 PC 机 的 型 号 、 速 度 和 硬盘 大 小 。 

b) 要 求 同 (ay， 但 是 重 命名 列 speedqd 为 megahertz， 以 及 列 hd 为 gigabytes。 

c) 找 出 所 有 打印 机 制造 厂商 。 

d) 找 出 价格 在 $2000 以 上 的 手提 电脑 的 型 号 、 内 存 大 小 和 屏幕 尺寸 。 

* eo 找 出 关系 Printer 中 所 有 彩色 打印 机 元 组 ， 注 意 属性 color 是 一 个 布尔 类 型 。 
f) 找 出 价格 少 于 $2000 并 且 拥 有 12x 或 16x DVD 的 PC 机 的 型 号 、 速 度 和 硬盘 尺寸 。 把 

rd 属性 看 做 一 个 字符 串 类 型 。 
习题 6.1.4 基于 习题 5.2.4 给 出 的 数据 库 模式 和 资料 写 出 后 面 的 查询 语句 以 及 查询 结果 。 


* 


* 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles(name, date) 

Outcomes(ship, battle, result) 


a) 找 出 至 少 装备 10 门 火炮 的 船只 所 属 类 别名 和 制造 国家 。 
b) 找 出 在 1918 年 以 前 下 水 的 舰 船 的 名 字 ， 并 且 把 结果 列 名 改 为 ShipName。 
c) 找 出 所 有 在 战役 中 被 击 沉 的 船只 和 那 次 战役 的 名 字 。 
d 找 出 具有 相同 类 别名 的 所 有 船只 。 
e) 找 出 所 有 以 “R.” 字 符 开头 的 船只 的 名 字 。 
! f) 找 出 所 有 包括 三 个 或 三 个 以 上 单词 的 船只 名 字 ( 例 如 King George V)。 
习题 6.1.5 ”假定 ae 和 1 是 可 能 为 NULL 的 整 型 属性 。 对 于 以 下 的 条 件 ( 出 现在 WHERE 子 句 中 )， 
准确 地 描述 满足 这 些 条 件 的 (a， b) 元 组 集合 。 包 括 那 些 a 和 ( 或) 5 可 能 为 NULL 值 的 元 组 。 
aja = 10 OR b = 20 
bja = 10 AND b = 20 
ca < 10 OR a>= 10 
*! da = Pb 
! e)a <= b 
习题 6.1.6 在 例子 6.10 中 讨论 的 查询 
SELECT * 


FROM Movie 
WHERE length <= 120 OR length > 120; 


当 某 部 电影 的 长 度 属性 为 空 值 时 ， 该 查询 显得 不 是 很 直观 。 请 写 出 一 个 wHERE 子 句 ， 其 中 
只 包括 一 个 条 件 ( 条 件 中 不 使 用 AND 和 oR ) 的 和 上 面 等 价 的 更 简单 的 查询 。 


6.2 多 个 关系 上 的 查询 


关系 代数 的 强大 在 于 它 能 够 通过 连接 、 笛 卡 儿 积 、 并 、 交 和 差 来 组 合 多 个 关系 。 在 SQL 中 
也 可 以 做 相同 的 操作 。 集 合理 论 中 的 操作 -并 、 交 和 差 -在 SQL 中 直接 出 现 。 这 些 将 在 6.2.5 节 中 
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讨论 。 首 先 学 习 如 何在 SQL 的 select-from-where 句 型 中 进行 关系 的 笛 卡 儿 积 和 连接 运算 。 
6.2.1 SQL 中 的 积 和 连接 

SQL 用 简单 的 方式 在 一 个 查询 中 处 理 多 个 关系 : 在 FROM 子 句 中 列 出 每 个 关系 ， 然 后 在 
SELECT 子 句 和 WHERE 子 句 中 引用 任何 出 现在 FROM 子 句 中 关系 的 属性 。 

例 6.12 REEF Star Wars 的 制 片 人 名 字 。 要 回答 这 个 问题 至 少 要 使 用 以 前 例子 中 出 现 的 
两 个 关系 : 


Movie(title, year, length, inColor, studioName, producerC#) 
MovieExec(name, address, cert#, netWorth) 


制 片 人 的 证 书号 (procucerc# ) 在 Movie 关 系 中 给 出 ， 因 此 可 以 对 Movie 做 一 个 简单 查 
询 取 得 这 个 证 书号 码 。 然 后 对 关系 MovieExec 做 第 二 次 查询 找 出 具有 该 证 书号 的 人 和 名。 

不 过 还 有 更 好 的 方法 ， 即 把 这 两 步 合 并 成 对 关系 Movie 和 MovieExec 的 一 个 查询 ， 如 下 
PER: 

SELECT name 

FROM Movie, MovieExec 

WHERE title = ’Star Wars’ AND producerC# = cert#; 

这 个 查询 检查 关系 Movie 和 MovieExec 的 所 有 元 组 对 。 这 一 对 元 组 的 匹配 条 件 在 WHERE 子 句 
中 给 出 : 

1. 关系 Movie 中 元 组 的 title 字 段 值 必须 为 ' star Wars’. 

2. 关系 Movie 中 元 组 的 producerC# 属 性 和 MovieExec 关 系 中 的 cert# 属 性 必须 具有 相 
同 的 证 书号 ， 即 这 两 个 元 组 必须 指 的 同一 个 电影 制 片 人 。 

当 找 到 符合 上 面 两 个 条 件 的 一 对 元 组 的 时 候 ， 输 出 MovieExec 中 元 组 的 name 属 性 作为 答 
案 的 一 部 分 。 当 来 自 Movie 中 的 元 组 是 Star Wars 并 且 来 自 MovieExec 中 的 元 组 是 George 
Lucas 时 ， 这 时 电影 名 是 正确 的 并 且 证 书号 也 符合 ， 两 个 条 件 都 满足 ， 于 是 获得 所 需要 的 资料 。 
这 时 George Lucas 作 为 惟一 输出 的 值 。 图 6-3 说 明了 整个 过 程 。6.2.4 节 中 将 更 详细 地 解释 多 
关系 查询 。 口 

title producerC# name cert# 


这 些 元 组 
相等 吗 ? 


N 
ws 
A 







任意 元 组 
任意 元 组 





MovieExec 


这 是 “Star Movie 
Wars” 3? 如 果 是 ， 输 出 该 元 素 。 


图 6-3 例 6.12 的 查询 处 理 过 程 示意 图 
6.2.2 避免 属性 歧义 
有 时 当 查 询 涉 及 到 几 个 关系 的 时 候 ， 关 系 中 可 能 会 有 两 个 或 两 个 以 上 的 属性 具有 相同 的 名 
字 ， 如 果 是 这 样 ， 就 需要 用 明确 的 方式 指定 这 些 相 同名 字 的 属性 的 意义 。SQL 通 过 在 属性 前 面 
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加 上 关系 名 和 一 个 点 来 解决 这 个 问题 。 如 R.A 表示 关系 R 的 属性 A。 
例 6.13 两 个 关系 


MovieStar (name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 


都 有 属性 name 和 address。 假 定 希 望 找 出 地 址 相同 的 影星 和 制 片 人 人。 下面 的 查询 符合 要 


SELECT MovieStar.name, MovieExec.name 
FROM MovieStar, MovieExec 
WHERE MovieStar.address = MovieExec.address; 


在 这 个 查询 里 ， 查 找 一 对 元 组 ， 一 个 来 自 MovieStar， 另 一 个 来 自 MovieExec， 它 们 的 
address 字 段 相 同 。WHERE 子 名 指明 了 来 自 两 个 关系 的 address 字 段 必须 相同 。 对 于 每 一 对 
匹配 的 元 组 ， 从 MovieStar 和 MovieExec 的 元 组 里 分 别提 取 name 属 性 ， 结 果 是 元 组 配对 的 
一 个 集合 ， 如 下 所 示 

MovieStar.name | MovieExec.name 


Jane Fonda Ted Turner 
l 口 


即使 属性 没有 二 义 性 ,在 它 前 面 加 上 关系 名 和 一 个 点 也 是 允许 的 。 例 如 ， 也 可 以 把 例 6.12 
的 查询 写成 

SELECT MovieExec.name 

FROM Movie, MovieExec 


WHERE Movie.title = ’Star Wars’ 
AND Movie. producerC# = MovieExec.cert#; 


和 前 面 例子 不 同 的 是 ， 这 里 在 属性 前 面 给 出 了 属性 所 属 的 关系 。 
6.2.3 元 组 变量 

只 要 查询 涉及 多 个 关系 ， 可 以 通过 在 属性 名 前 面 加 上 属性 的 关系 名 和 一 个 点 来 区 分 不 同 关 
系 同名 的 属性 。 但 有 时 查询 可 能 使 用 到 同一 个 关系 中 的 两 个 或 更 多 的 元 组 。 由 于 查询 需要 ， 关 
系 R 可 能 在 FROM 子 句 里 被 列 出 任意 次 ,但 是 对 每 一 个 R 的 出 现 需 要 一 种 方式 来 区 分 。SQL 人 允许 
为 FROM 子 名 中 出 现 的 每 个 R 定 义 一 个 别名 ， 称 之 为 元 组 变量 。 方 法 是 在 FROM 子 句 中 的 每 一 个 R 
的 后 跟 一 个 可 选 的 保留 字 AS 和 元 组 变量 的 名 字 。 下 面 的 讨论 中 将 忽略 保留 字 AS。 


元 组 变量 和 关系 名 字 

从 技术 角度 上 来 说 ， 对 SELECT 子 句 和 WHERE 子 句 中 的 属性 引用 都 是 针对 元 组 变量 
的 。 但 如 果 一 个 关系 名 仅 在 FROM 子 名 中 出 现 一 次 ， 则 可 以 将 该 关系 名 作为 它 的 元 组 变量 。 
也 可 以 认为 FROM 子 名 中 的 关系 是 R AS R 的 简写 。 进 一 步 还 可 以 看 到 ， 当 一 个 属性 明确 
地 属于 茶 个 关系 时 ， 这 个 关系 名 (元 组 变量 ) 可 以 省 略 。 


在 SELECT 和 WHERE 子 句 中 ， 可 以 通过 在 属性 前 加 上 一 个 正确 的 元 组 变量 和 一 个 点 符号 来 
消除 关系 R 的 属性 歧义 。 这 样 ， 元 组 变量 可 以 作为 关系 R 的 另外 一 个 名 字 用 在 需要 的 地 方 。 

例 6.14 ”6.13 例子 中 是 查找 具有 相同 地 址 的 影星 和 制 片 人 。 本 例 是 想 找 出 具有 相同 地 址 的 
两 个 影星 。 查 询 本 质 上 是 相同 的 ， 但 本 例 中 要 考虑 两 个 来 自 Moviestar 中 的 元 组 ， 而 不 是 分 
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别 来 自 MovieSstar 和 MovieExec。 这 里 用 元 组 变量 作为 别名 区 分 对 MovieStar 的 两 次 使 用 。 
查询 语句 可 以 写成 如 下 形式 。 

SELECT Stari.name, Star2.name 

FROM MovieStar Stari, MovieStar Star2 


WHERE Starl.address = Star2.address 
AND Stari.name < Star2.name; 


可 以 看 到 在 FROM 子 句 中 声明 了 两 个 元 组 变量 star1 和 Star2， 每 一 个 都 是 关系 
MovieStar 的 别名 。 这 两 个 元 组 变量 在 SELECT 子 句 中 引用 两 个 元 组 的 name 字 段 。 而 在 
WHERE 子 句 中 ， 由 Star1 和 Star2 表 示 的 两 个 ovieSstar 元 组 的 addqress 字 段 的 值 相 同 。 

WHERE 子 句 中 的 第 二 个 条 件 Star1 .name < Star2 .name 表 示 一 个 影星 的 名 字 的 字典 顺 
序 在 第 二 个 影星 的 名 字 之 前 。 如 果 这 个 条 件 漏 掉 的 话 ,那么 Star1 和 Star2 可 能 引用 的 是 同一 
个 元 组 。 两 个 元 组 变量 引用 adaqress 字 段 值 相同 的 元 组 ， 这 样 就 会 产生 一 对 相同 的 影星 8 。 第 
二 个 条 件 也 使 得 对 于 每 一 对 具有 相同 地 址 的 影星 仅 以 字典 顺序 输出 一 次 。 如 果 使 用 <>( 不 等 于 ) 
作为 比较 运算 符 ， 将 会 把 那些 住 在 一 起 的 已 婚 影 星 重 复 输出 。 如 : 

Stari.name | Star2.name 


Alec Baldwin | Kim Basinger 
Kim Basinger | Alec Baldwin 












口 


6.2.4 多 关系 查询 的 解释 

有 几 种 不 同 的 方式 定义 前 面 讲 到 的 select-from-where 所 表达 的 意义 。 如 果 每 个 查询 应 用 到 
相同 的 关系 实例 上 并 且 返 回 相同 的 结果 ， 则 称 它们 都 等 价 。 下 面 依次 讨论 它们 : 

REE 

到 目前 为 止 ， 在 例子 中 一 直 隐 含 使 用 的 语义 是 元 组 变量 。 一 个 元 组 变量 包括 了 相应 关系 的 
所 有 元 组 。 如 同 在 方 框 “元 组 变量 和 关系 名 字 ” 提 到 的 ， 没有 使 用 别名 的 关系 名 也 是 元 组 变量 ， 
它 包 括 了 该 关系 的 所 有 元 组 。 如 果 使 用 了 几 个 元 组 变量 ， 可 以 把 它们 想像 成 嵌 套 循环 ， 每 一 个 
元 组 变量 为 一 个 循环 ,访问 了 所 代表 的 关系 里 的 每 一 个 元 组 。 当 每 次 把 元 组 的 值 赋 给 元 组 变量 
的 时 候 ， 要 判断 WHERE 子 句 是 否 为 真 ， 如 果 是 ， 则 产生 一 个 由 跟 在 SELECT 语句 后 面 的 表达 式 
值 构成 的 元 组 。 注 意 ， 用 当前 赋 给 元 组 变量 的 元 组 中 的 值 取 代表 达 式 中 的 每 一 项 。 查 询 -回答 
算法 由 图 6-4 给 出 。 

并 行 赋值 。 

可 以 通过 另外 一 个 等 价 的 定义 来 说 明 ， 该 定义 中 不 直接 通过 元 组 变量 进行 嵌 套 扫描 ， 而 是 
以 一 种 任意 的 顺序 ， 或 者 说 并 行 的 顺 行 从 适当 的 关系 中 把 所 有 可 能 的 元 组 都 赋 给 元 组 变量 。 对 
于 每 一 个 赋值 ， 考 虑 WHERE 子 句 是 否 为 真 。 每 一 种 产生 真 值 WHERE 子 名 的 赋值 给 答案 贡献 一 个 
元 组 。 该 元 组 由 SELECT 子 句 中 的 属性 构造 给 出 ， 通 过 赋 给 的 值 计算 相应 字段 的 值 。 

转换 成 关系 代数 

第 三 种 方案 是 把 SQL 查 询 和 关系 代数 关联 起 来 。 从 FROM 子 句 后面 的 元 组 变量 开始 ， 求 它 
们 表示 的 关系 的 笛 卡 儿 积 。 如 果 两 个 元 组 变量 表示 同一 个 关系 ,那么 这 个 关系 在 笛 卡 儿 乘法 中 
出 现 两 次 ， 并 且 对 它 的 属性 重新 命名 以 保证 所 有 属性 的 名 字 都 不 相同 。 同 样 ， 对 来 自 不 同 关系 





O 在 例 6.13 中 ， 当 某 个 人 既是 影星 又 是 制 片 人 的 时 候 也 会 出 现 类 似 问 题 。 可 以 通过 要 求 两 个 名 字 不 同 来 解决 。 
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的 同名 属性 也 重 命名 以 防止 歧义 。 


LET the tuple variables in the from-clause range over 
relations R1, R2 
FOR each tuple t; in relation Rı DO 
FOR each tuple tz in relation Rz DO 


FOR each tuple 如 in relation Rn DO 
IF the where-clause is satisfied when the values 
from ti,t2,..., tn are substituted for all 
attribute references THEN 
evaluate the expressions of the select-clause 
according to ti,t2,..., tn and produce the 
tuple of values that results. 


图 6-4 回答 一 个 简单 查询 


在 获得 笛 卡 儿 积 之 后 ， 通 过 直接 把 wHERE 子 句 转换 成 一 个 选择 条 件 对 它 进 行 选择 操作 。 
即 WHERE 子 句 中 引用 的 属性 由 笛 卡 儿 积 中 对 应 的 属性 所 取代 。 最 后 ， 利 用 SELECT 子 句 中 提供 
的 表达 式 列表 作 最 后 的 ( 扩展 的 ) 投影 操作 。 和 WHERE 子 名 一样 ， 直 接 把 SELECT 子 句 中 引用 
的 每 个 属性 作为 关系 积 中 的 相应 属性 。 

例 6.15 ”把 例 6.14 的 查询 转换 成 关系 代数 。 首 先 ，FROM 子 句 中 存在 两 个 元 组 变量 ， 每 一 个 
都 引用 关系 MovieStar。 这 样 表达 式 (没有 重 命名 ) 开始 为 

MovieStar x MovieStar 
结果 关系 拥有 八 个 属性 ,前面 四 个 来 自 关系 MovieStaz 第 一 份 拷贝 的 属性 name address, 
gender 和 birthdate。 后 四 个 来 自 关系 Moviestar 第 二 份 拷贝 的 同名 属性 。 通 过 在 属性 
前 加 上 元 组 变量 的 别名 和 一 个 点 来 重 命名 ( 例如 star1 .gender )。 为 了 简洁 ， 这 里 使 用 新 
的 符号 把 这 些 属性 称 为 41/，A;，...，As 这 样 ，A1 对 应 Star1 .name，A;s 对 应 Star2 .name 如 

， 此 类 推 。 





SQL 语义 学 导致 的 意外 结果 
假定 R，S 和 T 是 一 元 关系 ( 仅 包 含 一 个 字段 )。 每 个 关系 仅仅 包含 一 个 属性 4。 如 果 
希望 找 出 那些 在 R 中 也 同时 在 S 或 T 中 (或 者 在 二 者 中 ) 的 元 素 。 即 计算 RN(SU 了 也。 我 们 
可 能 会 指望 下 面 的 SQL 查 询 完 成 这 项 工作 。 


SELECT R.A 
FROM R, S, T 
WHERE R.A = S.A OR R.A = T.A; 


然而 当 关 系 7 为 空 的 时 候 情 况 有 些 特别 。 由 于 R.4 = TA 不 可 能 满足 ， 我 们 可 能 直观 地 
根据 “OR” 操 作 符 认为 此 查询 产生 RNS。 然 而 无 论 使 用 6.2.4 小 节 使 用 的 哪 种 定义 ,不管 
R 和 S 有 多 少 相同 的 元 素 ， 结 果 都 是 空 。 如 果 用 图 6-4 谋 套 循 环 语义 来 解释 ， 会 发 现 元 组 变 
量 T 循 环 重复 0 次 ， 这 是 因为 该 关系 中 没有 元 组 可 以 扫描 。 这 样 ，for 循 环 的 if 句 子 就 不 会 执 
行 。 因 此 不 会 产生 任何 结果 。 同 样 地 ， 如 果 采 用 把 元 组 赋 给 元 组 变量 的 方式 ， 因 为 没有 
任何 可 以 赋 给 元 组 变量 T 的 元 组 ， 所 以 没有 任何 赋值 。 最 后 ， 如 果 使 用 笛 卡 儿 积 的 方式 ， 
开始 计算 RxSxT， 结 果 也 会 是 空 ， 因 为 T 是 空 的 。 








在 对 属性 重 命名 后 ， 从 WHERE 子 句 从 获得 的 选择 条 件 是 4;=A6e 和 A1<A;。 投 影 列 表 是 41、 
Aso 


RRB ESOL TOS 


这 样 关系 代数 运算 
Maa (Oh2 s46 anv Arcs PMA A A A Movi eStar) x puassoaa (MovieStar))) 
描述 了 整个 查询 。 
口 

6.25 查询 的 并 、 交 、 差 

在 关系 代数 中 可 以 用 集合 操作 的 并 、 交 和 差 来 组 合 关 系 。 在 查询 结果 上 ，SQL 提 供 了 对 应 
的 操作 ， 条 件 是 这 些 查询 结果 提供 的 关系 具有 相同 的 属性 和 属性 类 型 列表 。 保 留 字 UNION， 
INTERSECT 和 EXCEPT 分 别 对 应 U ， 和 一 。 当 UNION 这 样 的 保留 字 用 于 两 个 查询 时 ， 查询 
应 该 分 别 用 括号 括 起 来 。 

例 6.16 假定 要 找 出 那些 既是 女 影星 又 同时 是 具有 超过 $10 000 000 资 产 的 制 片 人 的 名 字 和 
地 址 。 使 用 下 面 两 个 关系 


MovieStar (name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 


可 以 使 用 图 6-5 的 查询 来 完成 任务 。 这 里 第 一 到 第 三 行 产 生 一 个 模式 为 (name,address ) 
的 关系 ， 该 关系 的 元 组 中 是 女 影 星 的 名 字 和 地 址 。 


(SELECT name, address 
FROM MovieStar 
WHERE gender = ’F’) 


INTERSECT 
(SELECT name, address 
FROM MovieExec 
WHERE netWorth > 10000000); 


图 6-5 女 影星 和 富有 制 片 人 的 交集 


类 似 地 ， 第 五 到 第 六 行 产 生 那 些 身价 在 $10 000 000 的 “富有 ”的 制 片 人 的 元 组 集合 。 这 个 
查询 也 同样 产生 一 个 只 具有 属性 name 和 address 的 关系 模式 ，。 由 于 两 个 查询 产生 的 模式 是 相 
同 的 ， 可 以 对 它们 取 交 ， 如 图 第 四 行 所 示 。 口 


例 6.17 ”按照 相同 的 格式 ， 也 能 够 从 两 个 关系 中 找 出 两 类 人 员 组 成 的 集合 的 差异 。 查 询 语 





名 


(SELECT name, address FROM MovieStar) 
EXCEPT 
(SELECT name, address FROM MovieExec); 


给 出 了 不 是 电影 公司 制 片 人 的 影星 的 名 字 和 地 址 ， 这 里 没有 考虑 性 别 和 资产 。 口 


在 上 面 的 两 个 例子 中 ， 进 行 交 或 者 差 运算 的 关系 的 属性 恰好 完全 相同 。 然 而 ， 如 果 有 必要 
得 到 相同 的 属性 集 的 话 ， 可 以 像 例子 6.3 中 那样 重新 命名 属性 。 

例 6.18 假定 想得到 所 有 出 现在 Movie 或 starsIn 关 系 中 的 电影 的 名 字 和 年 份 。 其 关系 定 
义 是 : 

Movie(title, year, length, inColor, studioName, producerC#) 

StarsIn(movieTitle, movieYear, starName) 
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易 读 的 SQL 查询 


通常 ， 我 们 在 写 SQL 查 询 时 把 重要 的 保留 字 如 FROM 或 WHERE 作为 每 一 行 的 开头 。 这 


种 风格 使 得 读者 能 直观 地 理解 查询 的 结构 。 但 如 果 一 个 查询 或 子 查询 非常 短 的 时 候 ， 我 
们 可 以 直接 把 它 写 成 一 行 ， 就 像 例子 6.17 所 示 的 那样 。 这 种 风格 使 得 查询 语句 很 紧凑 ， 
也 具有 很 好 的 可 读 性 





理想 情况 下 ， 电 影 的 元 组 集 应 该 相同 ， 但 是 实际 使 用 的 关系 中 通常 不 同 ， 例 如 可 能 有 的 电 
法 或 者 StarsIn 中 的 元 组 提 到 森 部 电影 但 是 在 Movie 关 系 中 却 找 不 到 。 其 查 
语句 可 以 这 样 写 ; 


(SELECT title, year FROM Movie) 


UNION 


(SELECT movieTitle AS title, movieYear AS year FROM StarsIn); 
结果 是 返回 所 有 出 现在 Movie 或 starsIn 中 的 影星 。 查 询 结果 的 关系 属性 为 citle 和 year。 口 


6.2.6 习题 
习题 6.2.1 使 用 给 出 的 关于 电影 数据 库 模 式 例子 。 


Movie(title, year, length, inColor, studioName, producerC#) — 
StarsIn(movieTitle, movieYear, starName) 

MovieStar(name, address, gender, birthdate) 

MovieExec(mame, address, cert#, netWorth) 

Studio(name, address, presC#) 


用 SQL 写 出 下 面 的 查询 : 


* 


水 


a) 谁 是 电影 Terms of Endearment 中 的 男 影星 ? 

b) 哪些 影星 在 MGM 于 1995 年 制作 的 电影 里 演出 ? 
c) 谁 是 MGM 制 片 厂 的 经 理 ? 

d) 哪些 电影 比 Gone With the Wind 长 ? 

e) 哪些 制 片 人 的 资产 比 Merv Griffing? 





JMe. 2.2 根据 习题 5.2.1 的 数据 库 模 式 写 出 下 面 的 查询 ， 并 用 那个 习题 给 出 的 数据 算出 查 
262 询 结 果 。 


Product (maker, model, type) 

PC(model, speed, ram, hd, rd, price) 

Laptop(model, speed, ram, hd, screen, price) 

Printer (model, color, type, price) 

a) 查询 硬盘 容量 至 少 30G 的 手提 电脑 制造 商 及 电脑 速度 。 

b) 查询 制造 商 B 制 造 的 任意 类 型 的 所 有 产品 的 型 号 和 价格 。 

c) 查询 只 卖 手提 电脑 不 卖 PC 的 厂商 。 

d) 查询 出 现在 两 种 或 两 种 以 上 PC 中 的 硬盘 的 尺寸 。 

e) 查询 每 对 具有 相同 速度 和 RAM 的 PC 机 ， 每 一 对 只 出 现 一 次 。 例 如 ， 如 果 (i, j) 符 
合 ， 则 Ci, i) 就 不 能 在 结果 中 出 现 。 


If) 查询 生产 至 少 两 种 速度 大 于 等 于 1000 的 计算 机 (PC 或 手提 ) 的 厂商 。 


© 


在 7.1.4 小 节 中 介绍 了 防止 这 种 分 歧 的 方法 。 


RESORT 


习题 6.2.3 根据 习题 5.2.4 的 数据 库 模 式 写 出 下 面 的 查询 ， 并 用 那个 习题 给 出 的 数据 算出 查 
询 结果 。 

Classes(class, type, country, numGuns, bore, displacement ) 

Ships(name, class, launched) 


Battles(name, date) 
Qutcomes(ship, battle, result) 


a) 找 出 重量 超过 35 000 吨 的 船只 。 
b) 找 出 参加 过 Guadalcanal 战 役 的 船只 的 名 字 、 排 水 量 和 火炮 数量 。 
c) 列 出 所 有 数据 库 中 提 到 的 船只 ( 注意 ， 并 非 所 有 的 船只 都 出 现在 Ships 关 系 中 )。 
! d 找 出 同时 具有 战列舰 和 巡洋舰 的 国家 。 
! e) 找 出 曾 在 某 次 战役 中 受 创 但 后 来 又 在 其 他 战役 中 出 现 的 船只 。 
! fy 找 出 参战 船只 至 少 有 三 艘 来 自 同一 个 国家 的 战役 。 
习题 6.2.4 一 个 关系 代数 查询 的 一 般 形 式 为 : 


Ni (Oc(RIX Ri x xR) 


这 里 ， 工 是 任意 属性 列表 ，C 是 任意 条 件 。 关 系列 表 中 Ri，R。，...，R, 可 能 重复 包括 某 个 关 
系 ， 这 种 情况 下 可 以 对 及 进行 重 命名 。 用 SQL 给 出 这 种 形式 的 任意 查询 。 
习题 6.2.5 男 一 个 常用 的 关系 代数 查询 格式 是 


(Oc (Ri OR, D< -+ BIR, )) 


使 用 与 习题 6.2.4 中 同样 的 假定 。 不 同 的 是 这 里 使 用 的 是 自然 连接 而 不 是 笛 卡 儿 积 。 用 SQL 
给 出 这 种 形式 的 任意 查询 。 


6.3 FEH 


在 SQL 中 ， 一 个 查询 可 以 通过 不 同 的 方式 使 用 另 一 个 查询 。 当 某 个 查询 是 另 一 个 查询 的 一 
部 分 时 ， 称 之 为 子 查询 。 子 查询 还 可 以 拥有 下 一 级 的 子 查询 。 如 此 递 推 ， 可 以 随 需要 拥有 多 级 
子 查询。 前 面 已 经 看 到 过 使 用 子 查询 的 例子 。 在 6.2.5 节 中 ， 通 过 连接 两 个 子 查询 形成 一 个 新 的 
查询 可 以 完成 关系 的 并 、 交 和 差 。 还 有 一 些 使 用 子 查询 的 其 他 方式 : 

1. 子 查询 可 以 返回 单个 常量 ， 这 个 常量 能 在 WHERE 子 句 中 和 另 一 个 常量 进行 比较 。 

2. 子 查询 能 返回 关系 ， 该 关系 可 以 在 WHERE 子 句 中 以 不 同 的 方式 使 用 。 

3. 像 许多 存储 的 关系 一 样 ， 子 查询 形成 的 关系 能 出 现在 FROM 子 句 中 。 

6.3.1 产生 标量 值 的 子 查询 

一 个 能 成 为 元 组 字段 值 的 原子 值 称 为 标量 。 一 个 select-from-where 句 子 产生 的 关系 可 以 有 
任意 多 的 属性 和 元 组 。 可 是 ， 人 们 经 常 只 对 单 属性 的 值 感 兴趣 。 另 外 ， 有 时 可 以 从 键 
或 其 他 信息 推导 信息 。 这 时 那个 属性 仅 有 单个 值 。 

如 果 这 样 的 话 ， 可 以 把 这 个 select-from-where 句 子 括 起 来 看 做 一 个 标量 。 特 定 条 件 下 ， 它 
可 以 出 现在 WHERE 子 句 中 任何 常量 或 者 表示 元 组 字段 的 属性 的 地 方 。 例 如 ， 可 以 用 子 查询 的 结 
果 和 一 个 常量 或 属性 比较 。 

例 6.19 ”回忆 在 例 6.12 中 ， 为 了 要 找 出 Star Wars 这 部 影片 的 制 片 人 ， 不 得 不 对 如 下 两 个 关 
系 进行 查询 。 

Movie (title, year, length, inColor, studioName, producerC#) 

MovieExec(name, address, cert#, netWorth) 


* 
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因为 只 有 前 者 包含 电影 片 名 信息 ， 而 后 者 含有 制 片 人 的 名 字 。 两 个 信息 通过 证 书号 连接 在 
一 起 。 证 书号 码 惟一 地 标志 了 制 片 人 。 查 询 写 为 : 


SELECT name 
FROM Movie, MovieExec 
WHERE title = "Star Wars’ AND producerC# = cert#; 


这 里 还 可 以 用 另 一 种 方式 去 理解 这 个 查询 。 使 用 关系 Movie 仅 仅 是 为 了 取得 电影 Star Wars 
制 片 人 的 证 书号 。 一 旦 获得 这 个 号 码 ， 就 可 以 用 它 在 关系 MovieExec 中 查 到 对 应 的 制 片 人 名 
字 。 第 一 个 问题 ， 取 得 制 片 人 的 证 书号 可 以 写成 一 个 子 查询 。 该 子 查 询 的 结果 可 以 作为 单个 值 
用 在 主 查 询 中 ， 从 而 取得 和 上 面 查 询 同 样 的 结果 。 图 6-6 给 出 了 该 查询 语句 。 


1) SELECT name 
FROM MovieExec 
WHERE cert# = 
(SELECT producerC# 


FROM Movie 
WHERE title = ’Star Wars’ 
) ; 


图 6-6 通过 说 套子 查询 找 出 影片 Siar Wars 的 制 片 人 


图 6-6 的 第 (4) 到 第 (6) 行 是 子 查询 。 单 独 地 看 这 个 简单 查询 ， 它 的 结果 是 一 个 具有 惟一 属性 
producerc# 的 关系 ,我 们 期 望 从 这 个 关系 中 仅 找 到 一 个 元 组 。 该 元 组 为 (12345) 的 形式 ， 也 
就 是 说 ， 是 某 个 整 型 值 ， 可 能 是 12345 或 是 George Lucas 的 证 书号 。 如 果子 查询 返回 零 个 或 多 
个 元 组 ， 就 会 出 现 运 行 错误 。 

执行 完 这 个 子 查 询 后 ， 可 以 看 做 先 用 12345 兰 换 了 整个 子 杏 询 ， 然后 再 执行 第 一 到 三 行 。 
即 主 查 询 按 照 如 下 的 方式 执行 : 


SELECT name 
FROM MovieExec 
WHERE cert# = 12345; 


查询 的 结果 是 George Lucaso 口 


6.3.2 含有 关系 的 条 件 表达 式 

有 许多 SQL 运算 符 可 以 作用 在 关系 R 上 并 产生 布尔 值 结果 。 通 常 像 selecLfrom-where 这 样 的 
子 查询 的 结果 是 返回 一 个 关系 R。 一 些 运算 符 ， 如 IN、ALL 和 ANY， 将 首先 在 包含 标量 值 的 简 
单 形式 中 被 解释 。 这 种 情况 下 ， 关 系 R 要 求 是 一 个 单个 列 的 关系 。 这 里 给 出 这 些 操作 符 的 定义 。 

1. EXISTS R 是 一 个 条 件 ， 当 且 仅 当 R 非 空 时 为 真 。 

2. s IN R 为 真 ， 当 且 仅 当 * 等 于 R 中 的 某 一 个 值 。 反 之 ，s NOT IN R 为 真 ， 当 且 仅 当 s 不 等 
于 R 中 的 任何 一 个 值 。 这 里 假定 R 是 一 元 关系 。 在 6.3.3 小 节 中 将 讨论 IN 和 NOT IN 运 算 符 的 扩展 
情况 ， 在 那里 R 可 以 有 一 个 以 上 的 属性 ，s 是 一 个 元 组 。 

3.s > ALL R 为 真 ， 当 且 仅 当 s 大 于 一 元 关系 R 中 的 任何 一 个 值 。> 运算 符 可 以 替换 成 其 他 
的 五 个 比较 运算 符 之 一 。 根 据 运 算 符 来 决定 该 条 件 表达 式 的 意义 。 但 都 是 要 求 : 和 R 中 所 有 元 组 
比较 结果 为 真 时 条 件 才 为 真 。 例 如 s <> ALL 和 sNOT IN RR 的 意义 相同 。 

4. 5 > ANY R 为 真 ， 当 且 仅 当 s 至 少 大 于 一 元 关系 R 中 的 一 个 值 。> eA 
五 个 比较 运算 符 之 一 。 条 件 的 意义 也 根据 运算 符 的 意义 类 似 。 但 都 必须 保证 s 和 R 中 至少 一 
组 的 比较 为 真 时 该 条 件 表达 式 才 为 真 。 
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EXISTS、ALLE 和 ANY 可 以 在 使 用 它们 的 表达 式 前 面 加 上 NoT 以 否定 掉 整 个 表达 式 ， 就 像 它 
们 是 布尔 表达 式 一 样 。 这 样 ，NOT EXISTS RAA KHANRA; NOT s> ALL RABY 
且 仅 当 s 不 是 R 中 的 最 大 值 ; NOT s> ANY R 为 真 当 且 仅 当 * 是 R 中 的 最 小 值 。 在 后 面 会 看 到 几 
个 使 用 本 节 所 讲 到 的 操作 符 的 例子 。 

6.3.3 含有 元 组 的 条 件 表达 式 

元 组 在 SQL 中 通过 括号 括 起 来 的 标量 值 列 表 来 表达 。 例 如 (123,， ”foo” ) 和 
(name, aqddress,networth) 。 前 者 用 常量 作为 元 组 成 分 ， 后 者 用 属性 作为 元 组 成 分 。 属 性 
和 常量 混合 在 一 起 也 是 可 以 的 。 

如 果 一 个 元 组 t 和 关系 R 的 元 组 有 相同 的 组 成 分 量 个 数 ， 那 么 使 用 6.3.2 节 的 运算 对 zhR 进 行 
比较 是 有 意义 的 。 例 如 IN RÈ {<>ANY R。 如 果 第 二 个 比较 表达 式 为 真 ， 意 味 着 R 中 存在 着 与 
1 不 同 的 元 组 。 注 意 ， 当 一 个 元 组 和 关系 R 的 成 员 比 较 时 ， 必 须 按照 关系 属性 的 指定 排列 顺序 来 
比较 元 组 各 字段 值 。 

1) SELECT name 
2) FROM MovieExec 
3) WHERE cert# IN 
+. (SELECT producerC# 
FROM Movie 
WHERE (title, year) IN 
(SELECT movieTitle, movieYear 
FROM StarsIn 


WHERE starName = ’Harrison Ford’ 
) 








图 6-7 {ÈH Harrison Ford 演 过 的 电影 的 制 片 人 


例 6.20 在 图 6-7 的 查询 中 ， 使 用 了 如 下 三 个 关系 


Movie(title, year, length, inColor, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 
MovieExec(name, address, cert#, netWorth) 


HRM Harrison Ford 主 演 的 电影 的 制 片 人 。 ERE—-TEAAN-TREEER PH FRI, 
以 及 弛 套 在 该 子 查询 中 的 另 一 个 子 查询 。 

分 析 岩 套 查 询 应 当 从 里 向 外 分 析 。 先 来 看 嵌 在 最 里 层 的 子 查询 ， 位 置 从 第 7 行 到 第 9 行 。 这 
个 查询 检查 关系 StarsIn 并 找 出 所 有 starName 字 段 为 ”Harrison Ford” 的 元 组 。 该 子 查 
询 获 得 所 有 满足 检查 条 件 的 电影 名 字 和 制作 年 份 。 记 住 title 和 year 属 性 合 起 来 才 是 关系 Movies 
的 键 ， 所 以 需要 产生 包括 这 两 个 属性 的 元 组 去 惟一 标志 一 部 电影 。 第 7 到 第 9 行 的 结果 类 似 图 6- 
8 所 示 。 

现在 ,考虑 中 间 的 查询 ， 即 第 4 到 第 6 行 。 它 从 Movie 关 系 中 检索 元 组 ， 这 些 元 组 的 title 和 
year 包 含 在 图 6-8 所 形成 的 关系 中 。 对 于 每 个 找到 的 元 组 ， 返 回 制 片 人 的 证 书号 ， 所 以 中 间 子 查 
询 的 结果 是 所 有 Harrison Ford 出 演 的 电影 制 片 人 的 证 书号 集合 。 

最 后 ， 考 虑 从 第 1 到 第 3 行 的 主 查询 。 它 检查 关系 MovieExec 中 的 元 组 ， 从 中 找 出 cert# 
字段 值 与 中 间 查 询 返 回 的 证 书号 集中 的 某 一 个 相等 的 元 组 。 对 于 每 一 个 这 样 的 元 组 ， 返回 制 片 
人 的 名 字 ， 也 即 给 出 了 想 要 的 Harrison Ford 出 演 影片 的 制 片 人 的 名 字 。 O [26 


顺便 说 一 下 ， 图 6-7 的 典 套 查询 以 及 其 他 的 一 些 嵌 套 查询 都 可 以 写成 select-from-where 形式 
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META A. ERMERAPHWKA, CRREERARESAM PCH, BHA EFROMS 
Ho MRR ALAA INK AR WHERE T PEP KAP. 6-9 A 6-7 Pa AS 
质 上 是 相同 的 。 不 同 之 处 在 于 图 6-9 中 的 查询 可 能 会 返回 重复 的 制 片 人 -例如 George Lucas 
复 。6.4.1 节 中 将 讨论 这 个 问题 。 











title | year 
Star Wars 1977. 
Raiders of the Lost Ark | 1981 


The Fugitive 1993 


图 6-8 内 层 查 询 返 回 的 title-year 属性 对 


SELECT name 
FROM MovieExec, Movie, StarsIn 
WHERE cert# = producerC# AND 


title = movieTitle AND 
year = movieYear AND 
starName = Harrison Ford’; 








图 6-9 不 用 子 查询 找 出 Ford 的 电影 制 片 人 


6.3.4 关联 子 查询 

最 简单 的 子 查询 只 需 计算 一 次 ， 它 返回 的 结果 用 于 高 层 查询 。 复 杂 的 典 套 子 查询 要 求 一 个 
子 查询 计算 多 次 ， 每 次 赋 给 查询 中 的 某 项 来 自 子 查询 外 部 的 某 个 元 组 变量 的 值 。 这 种 类 型 的 子 
查询 叫做 关联 子 查询 。 下 面 通过 例子 来 说 明 。 

例 6.21 ” 找 出 被 两 部 或 两 部 以 上 电影 使 用 过 的 电影 名 。 使 用 一 个 外 查询 从 下 面 关 系 中 查 
找 。 

Movie(title, year, length, inColor, studioName, producerC#) 

对 于 该 关系 中 的 每 个 元 组 , 在 一 个 子 查询 中 询问 是 否 有 一 部 电影 具有 相同 的 名 字 和 更 早 的 年 份 。 
整个 查询 如 图 6-10 所 示 。 

和 分 析 其 他 的 子 查询 一 样 ， 开 始 从 第 4 到 第 6 行 的 最 里 层 子 查询 开始 分 析 。 如 果 第 6 行 的 
01d.citle 被 一 个 常量 字符 串 如 ”King Kong” 所 替换 的 话 ， 那 么 该 子 查询 很 容易 理解 ， 即 
要 找 出 影 名 为 King Kong 的 电影 的 制作 年 份 。 这 个 典 套 查询 和 以 前 的 稍 有 不 同 。 惟 一 的 问题 在 
于 不 能 确定 01d.title 的 值 。 然 而 ， 当 第 1 到 第 3 行 的 外 层 查询 中 对 Mevie 中 的 元 组 遍历 的 时 
候 ， 每 一 个 元 组 可 以 为 ol1d.tit1le 提 供 一 个 值 。 这 样 可 以 用 提供 的 ol1a .title 去 执行 第 4 到 
第 6 行 的 子 查询 ， 从 而 决定 第 3 到 第 6 行 的 WHERE 子 句 是 否 为 真 。 口 


SELECT title 
2) FROM Movie Old 
3) WHERE year < ANY 







4) (SELECT year 
5) FROM Movie 





6) WHERE title = Old.title 
); 


图 6-10 找 出 多 次 出 现 的 电影 名 

当 某 部 电影 具有 和 oO1G .tit1le 相 同 的 电影 名 ,并 日 制 作 年 份 晚 于 元 组 变量 019 当 前 所 表 
示 的 元 组 的 电影 制作 年 份 时 ， 第 3 行 的 条 件 为 真 。 只 有 当 014d 元 组 的 年 份 是 该 同名 电影 的 最 近 
一 次 制作 时 间 时 , 该 条 件 为 真 。 接 下 来 的 第 1 到 第 3 行 输出 比 具 有 同名 电影 数 少 一 次 的 电影 名 称 。 








也 就 是 说 ， 某 部 电影 制作 了 两 次 只 输出 一 次 ， 制 作 了 三 次 的 电影 只 输出 两 次 ， 如 此 类 推 ? 。 

写 关 联 子 查询 时 很 重要 的 一 点 是 要 注意 名 字 的 作用 范围 〈scoping rule )， 通 常 子 查询 中 的 
某 个 属性 是 属于 该 子 查询 FROM 子 句 中 的 某 个 元 组 变量 ， 只 要 该 元 组 变量 所 表示 的 关系 模式 中 
定义 了 该 属性 。 如 果 没 有 定义 该 属性 ， 就 直接 查找 该 子 查询 的 外 层 查 询 ， 如 此 类 推 。 这 样 ， 图 
6-10 第 4 行 的 year 和 第 6 行 的 Lit1e 是 第 5 行 中 引用 关系 Movie 副 本 的 元 组 变量 属性 。 也 就 是 第 
4 到 第 6 行 子 查询 所 使 用 的 Movie 关 系 的 副本 。 

另外 ， 可 以 通过 在 属性 前 加 上 某 个 元 组 变量 名 和 一 个 点 表明 该 属性 属于 该 元 组 变量 。 这 就 
是 为 外 层 查询 的 Movie 关 系 取 O1dq 别 名 的 原因 ， 也 是 在 第 6 行 引用 old.title 的 原因 。 注 意 ， 
如 果 第 2 行 和 第 5 行 FROM 子 句 中 的 两 个 关系 不 同 ， 就 有 可 能 不 用 别名 ， 在 子 查询 中 可 以 直接 使 
用 第 2 行 中 提 到 的 关系 的 属性 。 


6.3.5 FROM 子 铝 中 的 子 查询 

子 查询 的 另 一 个 作用 是 在 FROM 子 句 中 当 关 系 使 用 。 在 FROM 列表 中 ， 除 了 使 用 一 个 存储 关 
系 以 外 ， 还 可 以 使 用 括 起 来 的 子 查询 。 由 于 这 个 子 查询 的 结果 没有 名 字 ， 必 须 给 它 取 -- 个 元 组 
变量 别名 。 于 是 可 以 像 引用 FROM 子 句 中 关系 的 元 组 一 样 引用 子 查询 结果 中 的 元 组 。 

例 6.22 ”重新 考虑 例 6.20 中 的 问题 。 在 该 例 中 使 用 一 个 查询 来 找 出 Harrison Ford 演 过 的 电 
影 的 制 片 人 。 如 果 有 一 个 关系 给 出 了 这 些 电 影 的 制 片 人 的 证 书号 ， 那 么 找 出 关系 MovieExec 
中 制 片 人 的 名 字 将 变 得 很 简单 。 图 6-11 给 出 这 样 一 个 查询 。 

1) SELECT name 
2) FROM MovieExec，(SELECT producerC# 


3) FROM Movie, StarsIn 
4) WHERE title = movieTitle AND 





5) year = movieYear AND 

6) starname = ’Harrison Ford’ 
7) ) Prod 

8) WHERE cert# = Prod.producerC#; 





图 6-11 通过 在 FROM 子 句 中 使 用 子 得 询 找 出 Ford 出 演 电影 的 制 片 人 


图 中 第 2 到 第 7 行 是 外 查询 的 FROM 子 句 。 除 了 MovieExec 关 系 以 外 ， 它 还 有 一 个 子 查询 。 
该 子 查询 在 第 3 到 第 5 行 连 接 关 系 Movie 和 starsIn。 加 上 第 6 行 的 条 件 要 求 影星 是 Harrison 
Ford。 在 第 2 行 返回 制 片 人 的 集合 。 这 个 集合 在 第 7 行 取 了 一 个 别名 Prod。 

第 8 行将 关系 MovieExec 和 别名 为 Pord 的 子 查询 通过 证 书号 相同 连接 在 一 起 。 第 1 行 语句 
从 MovieExec 中 返回 制 片 人 的 名 字 ， 该 制 片 人 的 证 书号 在 别名 为 Proqd 的 集合 中 。 口 
6.3.6 SQL 的 连接 表达 式 

可 以 通过 不 同 的 连接 运算 符 作 用 在 两 个 关系 上 创建 新 的 关系 。 这 些 不 同 的 运算 包括 第 卡 儿 
积 、 目 然 连 接 、6 和 连接 和 外 连接 。 连 接 结 果 本 身 可 以 看 做 是 一 个 查询 。 另 外 ,由 于 连接 表达 式 
产生 的 是 一 个 关系 ， 所 以 可 以 在 select-from-where 句 子 中 的 FROM 子 句 中 当 作 子 查询 使 用 。 

形式 上 最 简单 的 连接 是 交叉 连接 (cross join) ; 这 个 术语 和 在 5.2.5 节 中 提 到 的 笛 卡 儿 积 或 

积 ” 都 是 同一 个 意思 。 例 如 ， 如 果 需 要 下 面 两 个 关系 的 积 


Movie(title, year, length, inColor, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 


O 这 是 第 一 次 出 现 这 种 情况 。 记 住 在 SQL 中 ， 关 系 不 是 集合 而 是 要 想像 成 一 个 包 。 还 有 几 种 其 他 的 情况 需要 
在 SQL 关系 中 用 到 复制 。 在 第 6.4 节 中 将 讨论 这 个 问题 。 
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可 以 写作 


Movie CROSS JOIN Starsin; 


结果 是 包含 关系 Movie 和 StarsIn 所 有 属性 的 有 九 个 列 的 关系 。 连 接 结果 关系 中 的 每 个 元 组 
由 一 对 分 别 来 自 Movie 和 starsIn 中 的 元 组 组 成 。 

关系 积 中 的 属性 可 以 称 为 R.A， 其 中 R 是 两 个 连接 关系 中 的 一 个 ，4 是 它 的 一 个 属性 。 像 以 
前 提 到 的 一 样 ， 如 果 只 有 一 个 关系 具有 属性 4 那么 R 和 后 面 的 点 可 以 省 略 。 在 上 面 的 例子 中 ， 
两 个 关系 没有 同名 属性 ， 积 中 直接 使 用 属性 名 就 可 以 了 。 

通常 关系 积 运算 很 少 在 实际 中 使 用 。 更 常用 的 是 通过 保留 字 ON 来 使 用 6 连接 运算 ， 即 在 关 
系 R 和 S$ 之 间 放 一 个 JOIN 保 留 字 后 面 再 跟 一 个 保留 字 oN 和 一 个 条 件 。JOIN. . .ON 的 意义 是 在 
积 运算 R x $ 的 基础 上 再 使 用 ON 后 面 的 条 件 进 行 选择 运算 。 

例 6.23 使 用 下 面 两 个 关系 


Movie(title, year, length, inColor, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 


进行 连接 运算 ， 连 接 条 件 是 同一 部 电影 的 元 组 才 进 行 连接 ， 也 就 是 说 来 自 黄 个 关系 电影 名 和 年 
份 属性 相同 。 该 查询 语句 如 下 : 


Movie JOIN StarsIn ON 
title = movieTitle AND year = movieYear; 


结果 仍然 是 具有 九 列 的 关系 和 同样 的 属性 名 。 不 同 的 是 对 于 来 自 SstarsIn 的 元 组 和 来 自 
Movie 的 元 组 ， 只 有 当 它 们 的 电影 名 和 年 份 相同 时 才 合 并 成 为 新 的 关系 中 的 元 组 。 结 果 中 有 两 
个 列 是 元 余 的 ， 因 为 结果 中 每 个 元 组 的 citle 和 movieTitle 字 段 值 及 vear 和 movieYear 字 
有 段 值 相同 。 

对 于 上 面 连接 中 包含 有 元 余 而 不 满意 的 话 ， 可 以 把 整个 连接 表达 式 作为 一 个 子 查 询 在 
FROM 子 句 中 使 用 ， 然 后 使 用 SELECT 子 句 去 掉 不 需要 的 属性 。 这 样 ， 该 查询 可 写成 

SELECT title, year, length, inColor, studioNane, 

producerC#, starName 


FROM Movie JOIN StarsIn ON 
title = movieTitle AND year = movieYear; 


该 查询 返回 一 个 七 个 列 的 关系 ， 其 中 每 个 元 组 可 以 看 做 是 一 个 Movie 关 系 的 元 组 ， 加 上 演 
过 该 部 电影 的 某 个 影星 ， 并 以 所 有 可 能 的 方式 扩展 而 成 。 oO 


6.3.7 自然 连接 

回忆 5.2.6 节 所 讲 ， 自 然 连 接 不 同 于 6 连接 之 处 在 于 : 

1. 自然 连接 是 对 两 个 关系 中 具有 相同 名 字 并 且 其 值 相 同 的 属性 作 连接 ， 除 此 之 外 再 没有 其 
他 的 条 件 。 

2. 两 个 等 值 的 属性 只 投影 一 个 。 

SQL 自然 连接 也 是 按照 这 种 方式 进行 。NATURAL JOIN 出 现在 两 个 关系 之 间 所 表达 的 意 
义 和 m 操 作 符 的 意义 相同 。 

例 6.24 假定 需要 计算 下 面 两 个 关系 的 自然 连接 


MovieStar (name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 


结果 关系 模式 中 包括 属性 name 和 adadress， 再 加 上 所 有 出 现在 这 两 个 关系 中 的 其 他 属性 。 
结果 中 的 元 组 表示 既是 影星 也 是 制 片 人 的 那些 人 。 并 且 还 包括 所 有 相关 的 属性 : 姓名 、 地 址 、 
性 别 、 生 日 、 证 书号 和 净 资 产 等 。 表 达 式 


MovieStar NATURAL JOIN MovieExec; 
以 简洁 的 方式 表达 了 该 关系 。 口 


6.3.8 外 连接 
， 外 连接 在 4.7 节 中 介绍 过 ， 它 是 一 种 通过 在 悬 泽 元 组 里 填充 空 值 来 使 之 成 为 查询 结果 。 在 
SQL 中 ， 也 可 以 指定 外 连接 。NULL 用 来 表示 空 值 。 

例 6.25 对 下 面 两 个 关系 进行 外 连接 


MovieStar(name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 


SQL 使 用 标准 的 外 连接 ， 它 对 两 个 关系 的 悬浮 元 组 都 进行 填充 ， 即 它 是 一 个 完全 外 连接 。 语法 
形式 为 : 


MovieStar NATURAL FULL OUTER JOIN MovieExec; 


该 运算 结果 和 例 6.24 相 同 ， 也 是 一 个 具有 6 个 属性 的 关系 。 关 系 中 的 元 组 可 以 分 为 三 类 。 第 一 
类 表示 既是 影星 又 是 制 片 人 的 人 ， 这 部 分 元 组 包含 的 六 个 属性 都 不 为 空 ， 和 例 6. 24 中 返回 的 结 
果 相 同 。 

第 二 类 元 组 表示 是 影星 但 不 是 制 片 人 的 一 类 人 。 来 自 关系 Moviestar 的 属性 name、 
address、gender 和 birthdate 包 含有 值 ， 而 来 自 关 系 MovieExec 的 属性 cert# 和 和 
netWworth 都 是 NULL 值 。 

第 三 类 元 组 表示 是 制 片 人 但 不 是 影星 的 一 类 人 。 来 自 关系 MovieExec 的 属性 都 包含 有 值 ， 
但 是 来 自 关系 Moviestar 的 属性 如 gender 和 birthdate 都 是 NULL 值 。 例 如 ， 图 6-12 包 含 的 


三 个 元 组 分 别 对 应 了 三 种 类 型 的 人 。 口 
name address gender | birthdate | cert# | networth 
Mary Tyler Moore | Maple St. F? 9/9/99 12345 | $100- -- 
Tom Hanks Cherry Ln. | °M? 8/8/88 | NULL | NULL 
George Lucas „| Oak Rd. NULL NULL 23456 | $200. -.- 


图 6-12 对 MovieStar 和 MovieExec 进 行 外 连接 产生 的 三 个 元 组 


在 5.4.7 节 提 到 的 所 有 不 同 的 外 连接 在 SQL 中 都 提供 。 如 果 想 要 左 或 右 外 连接 ， 用 保留 字 
LEFT 或 RIGHT 放 在 FULL 的 位 置 即 可 。 例 如 ; 


MovieStar NATURAL LEFT OUTER JOIN MovieExec; 
输出 图 6-12 中 的 前 两 个 元 组 但 不 输出 第 三 个 。 同 样 地 


MovieStar NATURAL RIGHT OUTER JOIN MovieExec; 


输出 图 6-12 的 第 一 个 和 第 三 个 元 组 ， 不 输出 第 二 个 。 
如 果 希 望 是 一 个 6 外 连接 而 不 是 一 个 自然 外 连接 。 这 时 不 使 用 保留 字 NaTURAL ， 而 是 在 连 
接 后 面 加 ON 保留 字 和 一 个 所 有 元 组 都 服从 的 条 件 。 如 果 指 定 了 FULL OUTER JOIN， 那 么 在 对 
两 个 连接 关系 进行 匹配 以 后 ， 对 每 个 关系 中 的 悬浮 元 组 填充 NULL 值 ， 并 把 它们 包括 在 结果 中 。 
例 6.26 ”重新 考虑 6.23 的 例子 ， 该 例 中 对 关系 Movie 和 StarsIn 进 行 连接 操作 ， 条 件 是 分 


N 
N 


174 FOF 


别 来 自 两 个 关系 的 title 和 movieTitle 属 性 值 相同 ， 以 及 year 和 movieYear 属 性 值 相同 。 
如 果 修 改 该 例 使 之 成 为 一 个 完全 外 连接 : 
Movie FULL OUTER JOIN Starsin ON 
title = movieTitle AND year = movieYear; 
那么 结果 关系 中 不 但 包括 那些 至 少 有 一 个 影星 在 StarsIn 中 出 现 的 电影 的 元 组 ， 同 时 也 包括 
没有 影星 的 电影 的 元 组 ， 这 些 元 组 的 movieTitle、movieYear 和 starName 属 性 都 为 NULL 
值 。 同 样 地 ， 对 于 没有 出 现在 关系 Movie 的 任何 一 部 电影 中 的 影星 也 用 一 个 元 组 列 出 ， 其 来 自 
Movie 关 系 的 六 个 属性 为 NULL。 口 


外 连接 中 的 保留 字 FULL 可 以 由 RIGHT 或 LEFT 取 代 。 例 如 


Movie LEFT OUTER JOIN StarsIn ON 
title = movieTitle AND year = movieYear; 
给 出 了 有 影星 出 现 的 Movie 元 组 和 用 NULL 值 填充 的 没有 影星 出 现 的 Movi e 元 组 。 但 是 不 会 包 
括 不 在 任何 电影 中 出 现 的 影星 。 相 反 地 ， 


Movie RIGHT OUTER JOIN StarsIn ON 
title = movieTitle AND year = movieYear; 
将 会 省 去 那些 没有 任何 影星 出 现 的 电影 的 元 组 , 但 是 会 包括 没有 在 任何 一 部 电影 中 出 现 的 影星 ， 
并 在 相应 字段 填 上 NULI 值 。 
6.3.9 习题 
习题 6.3.1 基于 习题 5.2.1 的 数据 库 模 式 写 出 后 面 的 查询 


Product(maker, model, type) 

PC(model, speed, ram, hd, rd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 


每 题 的 答案 中 ， 你 应 当 至 少 使 用 一 个 子 查询 ， 并 且 使 用 两 种 不 同 的 方法 写 出 每 个 查询 〈 例 
如 ,使 用 各 种 不 同 的 操作 符 ExISTS、IN、ALL 和 ANY ) 
* a) 找 出 速度 在 1200 以 上 的 PC 的 制造 商 。 
b) 找 出 价格 最 高 的 打印 机 。 
1c) 找 出 速度 比 任何 一 台 PC 都 慢 的 手提 电脑 。 
! d 找 出 具有 最 高 价格 的 产品 (PC、 手 提 电 脑 或 打印 机 ) 的 型 号 。 
e) 找 出 最 低 价格 的 彩色 打印 机 的 制造 商 。 
) 在 所 有 的 PC 中 ， 找 出 具有 最 快速 度 并 具有 最 少 RAM 的 PC 制造 商 。 
习题 6 3.2 基于 习题 5.2.4 的 数据 库 模式 写 出 后 面 的 查询 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles(name, date) 

Outcomes(ship, battle, result) 


每 题 的 答案 中 ， 你 应 当 至 少 使 用 一 个 子 查询 ， 并 且 使 用 两 种 不 同 的 方法 写 出 每 个 查询 ( 例 
如 ， 使 用 各 种 不 同 的 操作 符 EXISTS、IN、&ALD 和 ANY )。 

a) 找 出 拥有 火炮 数量 最 多 的 船只 所 属 的 国家 。 
= b 找 出 至 少 有 一 稻 船 在 战役 中 被 击 沉 的 船只 种 类 。 


c) 找 出 具有 16 英 寸 口径 火炮 的 船只 的 名 字 。 
d) 找 出 Kongo 类 型 船只 参加 的 战役 。 
!! eo 找 出 具有 相同 口径 火炮 的 船只 中 火炮 数量 最 多 的 船只 名 字 。 

! 习题 6.3.3 不 用 子 查询 写 出 图 6-10 的 查询 。 

! 习题 6.3.4 考虑 关系 代数 中 表达 式 xi (Ri1mR2m...mR,)， 其 中 LL 是 仅 属 于 Ri 的 属性 的 列表 。 
证 明 仅 用 子 查询 SQL 语句 也 能 写 出 该 表达 式 。 然 后 再 用 一 个 等 价 的 SQL 语句 写 出 查询 ， 该 
名 中 每 个 FROM 子 句 列表 中 不 超过 一 个 关系 。 

! 习题 6.3.5 不 使 用 交 或 差 运算 符 写 出 下 面 的 查询 。 

* a) 图 6-5 的 交 查 询 。 
b) 例 6-17 的 差 查询 。 

! 习题 6.3.6 注意 到 SQL 的 某 些 运算 符 是 宛 余 的 ， 即 它们 可 以 被 其 他 的 一 些 运 算 符 替 代 。 例 
an, s IN R 能 被 = ANY R 替换 。 证 明 EXISTS 和 NoT EXISTS 是 元 余 的 ， 即 用 一 个 不 含 
有 EXITSTS 的 表达 式 来 替换 形 如 EXxISTS RERNOT EXISTS R 的 表达 式 〈 不 考虑 R 本 身 包 
含 的 EXTSTS )。 提 示 : 记 住 在 SELECT 子 句 中 可 以 使 用 常量 。 
习题 6.3.7 对 于 使 用 的 电影 数据 库 模 式 275 


StarsIn(movieTitle, movieYear, starName) 
MovieStar (name, address, gender, birthdate) 


MovieExec(name, address, cert#, netWorth) 
Studio(name, address, presC#) 


描述 下 列 SQL 表 达 式 表示 的 元 组 : 


a) Studio CROSS JOIN MovieExec; 
b) StarsIn NATURAL FULL OUTER JOIN MovieStar; 
c) StarsIn FULL OUTER JOIN MovieStar ON name = starName; 


习题 6.3.8 使 用 数据 库 模 式 


Product (maker, model, type) 

PC(medel, speed, ram, hd, rd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 


写 出 SQL 查询 ， 该 查询 将 会 返回 所 有 的 产品 (PC、 手 提 电 脑 和 打印 机 ) 信息 ， 包 括 它们 的 
制造 商 〈 如 果 有 的 话 )， 以 及 尽 可 能 多 的 其 他 相关 信息 。 
习题 6.3.9 使 用 习题 5.2.4 中 给 的 两 个 关系 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 


用 SQL 查询 输出 所 有 的 关于 船只 的 信息 ， 包 括 可 以 获得 的 Classes 关 系 中 的 信息 。 如 果 在 
关系 Ships 中 该 类 型 的 船只 不 出 现 ， 就 不 必 输 出 类 型 信息 。 
习题 6.3.10 ” 重 做 习题 6.3.9， 在 结果 中 增加 对 于 任何 没有 在 ships 中 提 到 的 类 型 C， 提 供 
船 的 信息 并 用 C 作 为 其 类 型 。 
习题 6.3.11 本 节 学 习 的 连接 运算 符 是 一 个 元 余 的 运算 符 ， 它 可 以 通过 select-from-where 的 
形式 表达 出 来 。 解 释 如 何 使 用 select-from-where 的 形式 写 出 下 列 查询 。 
* a)R CROSS JOIN $; 

b) R NATURAL JOIN S; 

c)R JOIN S ONC ; C 是 一 个 SQL 条 件 。 


* 


N 
-A 
an 
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6.4 全 关系 操作 


本 节 中 ,将 学 习 把 关系 作为 一 个 整体 而 不 是 单个 元 组 或 一 定数 量 的 元 组 进行 操作 (如 几 个 
关系 的 连接 ) 的 操作 符 。 首 先 ，SQL 把 关系 当 作 包 而 不 是 集合 使 用 ， 一 个 元 组 可 以 在 关系 中 多 
次 出 现 ， 在 6.4.1 节 中 将 讨论 如 何 把 操作 的 结果 强制 转换 成 集合 。 在 6.4.2 节 中 将 讨论 如 何 阻止 在 
SQL 系统 中 缺 省 地 消除 重复 元 组 。 

接着 ， 开 始 讨论 SQL 对 5.4.4 节 中 的 聚集 操作 运算 符 ) 的 支持 。SQL 也 有 聚集 运算 符 和 
GROUP-BY 子 句 。 还 有 一 个 “HaAVING” 子 句 允 许 以 某 些 方式 对 群 组 进行 选择 。 它 把 每 个 群 组 
看 做 一 个 操作 的 实体 而 不 是 单个 的 元 组 。 

6.4.1 消除 重复 

如 在 6.3.4 节 提 到 的 ，SQL 中 关系 的 概念 不 同 于 第 3 章 中 提出 的 关系 的 抽象 概念 。 一 个 关系 
是 一 个 集合 ， 不 能 包含 某 个 元 组 一 份 以 上 的 拷贝 。 当 SQL 查询 创造 了 一 个 新 关系 时 ，SQL 系 统 
正常 情况 下 不 消除 重复 的 元 组 ， 这 样 ，SQL 查 询 返 回 的 关系 中 可 能 多 次 重复 出 现 某 个 元 组 。 

回忆 6.2.4 节 讲 到 SQL 的 一 个 等 价 的 select-from-where 定义 ， 该 定义 首先 对 FROM 子 句 中 列 出 
的 关系 做 积 运算 ， 积 中 的 每 一 元 组 先 使 用 wHERE 子 名 中 的 条 件 进行 测试 ， 通 过 测试 的 元 组 再 使 
用 SELECT 子 句 进 行 投影 。 投 影 可 能 造成 积 中 不 同 的 元 组 形成 某 个 重复 相同 的 元 组 ， 如 果 这 种 
情况 发 生 ， 这 些 元 组 都 将 作为 投影 后 的 结果 输出 。 还 有 ，SQL 关 系 中 本 身 可 以 有 重复 元 组 ， 做 
笛 卡 儿 积 后 的 关系 就 会 产生 重复 的 元 组 。 因 为 每 一 元 组 还 要 和 来 自 其 他 关系 中 的 元 组 配对 ， 所 
以 在 积 运算 后 可 能 产生 更 多 的 重复 元 组 。 

如 果 希 望 结 果 中 不 出 现 重复 的 元 组 ， 可 以 在 保留 字 sELECT 后 跟 上 DISTINCT。 该 保留 字 
告诉 SQL 仅 产 生 每 个 元 组 的 一 份 拷贝 。 这 个 和 5.4.1 节 中 对 查询 结果 进行 5 运算 相似 。 

例 6.27 ”考虑 图 6-9 的 查询 ， 在 那里 不 使 用 子 查询 来 查找 Harrison Ford 出 演 电 影 的 制 片 人 。 
该 例 查 询 结果 中 George Lucas 的 名 字 会 在 输出 结果 中 出 现 多 次 ， 如 果 希 望 仅仅 看 到 每 一 个 制 片 
人 的 名 字 一 次 ， 可 把 第 一 行 改 成 


1) SELECT DISTINCT name 


那么 ， 制 片 人 列表 中 重复 出 现 的 名 字 在 打印 输出 前 就 去 掉 了 。 







消除 重复 的 代价 

或 许 有 人 想 在 每 个 SELECT 后 面 放 上 一 个 DISTINCT 消 除 重复 ， 这 样 在 理论 上 似乎 不 
费事 ， 但 实际 上 从 关系 中 消除 重复 的 代价 是 非常 昂贵 的 。 关 系 必须 排序 或 者 分 组 才能 保 
证 相同 的 元 组 紧 挨 在 一 起 。 从 15.2.2 节 开始 将 讨论 这 些 算法 。 只 有 按 该 算法 分 组 后 才能 决 
定 某 个 元 组 是 否 可 以 去 掉 。 为 消除 重复 对 元 组 进行 排序 的 时 间 通 常 比 执行 查询 的 时 间 者 
长 。 所 以 如 果 想 要 查询 运行 得 快 就 要 谨慎 地 使 用 消除 重复 。 


顺便 提 一 下 ， 图 6-7 的 查询 中 由 于 使 用 到 了 子 查询 ， 不 会 出 现 结果 中 元 组 重复 的 问题 。 虽 
然 图 6-7 中 的 第 4 行 会 产生 George Lucas 的 证 书号 多 次 ， 但 是 在 第 一 行 的 主 查询 中 ，NMovieExec 
中 的 每 个 元 组 仅 被 检查 一 次 。 候 定 该 关系 中 只 有 一 个 关于 George Lucas 的 元 组 ， 该 元 组 就 是 惟 
一 满足 第 3 行 WHERE 子 句 中 条 件 的 元 组 。 这 样 ，George Lucas 只 打印 一 次 。 口 


6.4.2 交 、 并 、 差 中 的 重复 
SELECT 语句 中 缺 省 保留 重复 的 元 组 ， 除 非 使 用 pIsmINCT 保 留 字 指明 。 与 之 不 同 的 是 在 
6.2.5 节 介绍 的 集合 操作 中 的 并 、 交 和 差 操作 在 缺 省 情况 下 消除 重复 。 即 将 包 又 变 成 了 集合 。 
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作 的 集合 版 本 在 这 里 适用 。 如 要 要 阻止 消除 重复 元 组 ， 必 须 在 UNION、INTERSECT 和 
EXCEPT 后 跟 上 保留 字 ALL。 这 样 ， 就 又 回 到 了 5.3.2 节 中 讨论 的 包 的 并 、 交 、 差 操作 。 

例 6.28 再 次 考虑 例 6.18 中 的 集合 表达 式 ， 但 是 加 上 保留 字 ALL 使 之 成 为 : 

(SELECT title, year FROM Movie) 

UNION ALL 

(SELECT movieTitle AS title, movieYear AS year FROM StarsIn); 

现在 ， 把 出 现在 关系 Movie 和 starsIn 中 的 title 和 year 组 合 放 在 一 起 ， 导 致 它们 将 会 
在 结果 中 多 次 出 现 。 例 如 ， 如 果 某 部 电影 在 Movie 关 系 中 有 一 条 记录 ， 并 且 StarsIn 关 系 包 
含 出 演 这 部 电影 的 三 位 影星 ( 因此 这 部 电影 将 会 在 StarsIn 三 个 不 同 的 元 组 中 出 现 )， 最 后 这 
部 电影 的 名 字 和 年 份 将 会 在 集合 的 并 运算 结果 中 出 现 4 次 。 口 


对 于 并 运算 ， 操作 INTERSECT ALL 和 EXCEPT ALL 是 包 的 交 和 差 。 这 样 ， 如 果 R 和 5 是 关 
系 的 话 ， 那 么 表达 式 

R INTERSECT ALL S 
表示 的 关系 中 ， 元 组 ! 出 现 的 次 数 是 它 在 R 中 出 现 的 次 数 和 在 $ 中 出 现 的 次 数 的 较 小 者 。 表 达 式 

R EXCEPT ALLS 
表示 的 关系 中 如 果 元 组 多 次 出 现 ， 那 么 它 出 现 的 次 数 是 在 R 中 出 现 的 次 数 减 去 在 5 中 出 现 的 次 
数 ， 结 果 差 为 正 数 。 以 上 讨论 的 每 一 个 定义 都 是 使 用 了 5.3.2 节 关系 的 包 语 义 。 
6.4.3 SQL 中 的 分 组 和 聚集 

在 5.4.4 节 中 ， 分 组 和 聚集 操作 符 ) 第 引用 来 扩展 关系 代数 。 在 5.4.3 的 讨论 中 ， 使 用 该 操作 
能 根据 元 组 的 一 个 或 多 个 属性 将 关系 中 的 元 组 划分 成 “组 ”。 然 后 对 关系 中 的 其 他 列 可 以 使 用 
育 集 操作 符 进 行 聚集 操作 。 如 果 该 关系 已 经 分 组 ， 那 么 聚集 操作 是 对 每 个 分 组 单独 进行 。SQL 
通过 在 SELECT 子 句 中 的 聚集 操作 和 特定 的 GROUP BY 子 句 提供 了 Y 操 作 的 所 有 功能 。 
6.4.4 聚集 操作 符 

SQL 提供 在 5.4.2 节 中 提 到 的 五 个 聚集 操作 符 ， 分 别 是 SUM、RVG、MIN、MRX 和 COUNT。 
这 些 操 作 符 通 常 作用 在 一 个 标量 表达 式 上 ， 典 型 的 是 SELECT 子 句 中 的 一 个 列 名 。 一 个 例外 是 
表达 式 COUNT(*)， 它 计算 由 查询 中 FROM 子 句 和 WHERE 子 句 所 创建 的 关系 中 的 元 组 个 数 。 

另外 ， 通 过 使 用 保留 字 DISTINCT 可 以 在 使 用 聚集 操作 符 之 前 从 列 中 消除 重复 元 组 。 即 如 
COUNT (DISTINCT x) 这 样 的 表达 式 将 只 计算 列 x 中 不 重复 的 x 的 个 数 。 可 以 在 把 CcOUNT 替 换 
成 其 他 的 操作 符 。 不 过 像 SUM (DISTINCT x) 这 样 的 表达 式 几 乎 没有 什么 意义 ， 它 要 求 计算 列 
x 中 不 同 值 的 和 。 

例 6.29 下 面 的 查询 是 找 出 所 有 的 电影 制 片 人 资产 的 平均 值 。 

SELECT AVG (netWorth) 

FROM MovieExec; 
注意 ， 这 里 没有 使 用 WHERE 子 句 ， 保 留 字 WHERE 没 有 出 现在 句 中 。 该 查询 检查 关系 Movie- 
Exec (name, address, cert#,netWworth) ， 对 找到 的 值 求 和 ， 每 元 组 计算 一 次 (即使 该 元 
组 与 其 他 元 组 重复 )。 然 后 对 求 得 的 和 除 以 元 组 的 数目 。 如 果 没 有 重复 的 元 组 ， 查 询 就 会 给 出 
制 片 人 的 平均 资产 ， 这 正 是 查询 所 求 。 但 如 果 该 关系 中 有 重复 的 元 组 ， 即 一 个 经 理 的 元 组 出 现 
了 n 次 ， 那么 求 得 的 平均 值 中 此 人 的 资产 重复 计算 了 n 次 。 口 


N 


EOF 


例 6.30 下 面 的 查询 


SELECT COUNT(*) 
FROM StarsIn; 


计算 scarsIn 关 系 中 元 组 的 数目 。 类 似 的 查询 


SELECT COUNT(starName) 
FROM StarsIn; 


计算 starName 列 中 的 值 出 现 的 次 数 。SQL 中 对 starName 列 进行 投影 时 不 消除 重复 。 这 
个 计数 的 结果 和 CoUNT (*) 的 结果 相同 。 
如 果 想 保证 不 对 重复 的 值 多 次 计数 ， 在 聚集 的 属性 前 加 上 DISTINCT 保 留 字 就 可 以 了 。 如 : 


SELECT COUNT (DISTINCT starName) 
FROM StarsIn; 


现在 ， 每 个 影星 无 论 在 多 少 部 电影 中 出 现 都 只 计数 一 次 。 口 
6.4.5 分 组 

在 WHERE 子 句 后 面 加 上 一 个 GROUP BY 子 句 可 以 对 元 组 进行 分 组 。 保 留 字 GROUP BY 后 
面 跟着 一 个 分 组 属性 列表 。 最 简单 的 情况 是 ，FROM 子 句 后 面 只 有 一 个 关系 ， 根 据 分 组 属性 对 
它 的 元 组 进行 分 组 。SELECT 子 句 中 使 用 的 聚集 操作 符 仅 应 用 在 每 个 分 组 上 。 

例 6.31 从 关系 Movie (title,year,length, inColor,studioName, 
producerC#) 中 找 出 每 个 制 片 公司 制作 的 电影 总 长 度 。 可 用 如 下 语句 表达 


SELECT studioName, SUM(length) 
FROM Movie 
GROUP BY studioName; 


该 语句 是 将 Movie 关 系 的 元 组 重新 组 织 ， 并 且 进 行 分 组 使 得 所 有 的 Disney 公 司 的 元 组 被 组 织 在 
一 起 ， 如 所 有 MGM 公 司 的 元 组 被 组 织 在 一 起 等 ， 就 像 图 5-17 所 展示 的 那样 。 然 后 计算 每 个 分 


组 里 面 的 所 有 元 组 的 1ength 字 段 值 之 和 。 对 于 每 一 个 分 组 ， 制 片 公司 的 名 字 和 求 得 的 和 一 起 
被 打印 出 来 。 口 


从 例 6.31 中 可 以 看 出 ，SELECT 子 句 有 两 种 概念 。 

1. 聚集 。 每 个 聚集 运算 符 作用 在 一 个 属性 上 或 涉及 属性 的 表达 式 上 。 上 面 已 提 到 ， 这 些 项 
目 是 以 分 组 为 单位 计算 的 。 

2. 属性 。 如 例子 中 的 stuqioName， 这 些 属性 同时 在 GROUP BY 中 出 现 。 如 果 SELECT 子 名 
中 有 聚集 运算 ， 那 么 GROUP BY 子 句 中 出 现 的 属性 可 以 在 SELECT 子 句 中 以 非 聚 集 的 形式 出 现 。 

当 查询 中 有 GROUP BY 保留 字 的 时 候 ，SELECT 子 句 中 通常 有 聚集 属性 和 聚集 运算 符 。 但 
也 不 必 两 者 都 出 现 ， 例 如 


SELECT studioName 
FROM Movie 
GROUP BY studioName; 


这 个 查询 对 Movie 关 系 根据 制 片 公司 名 称 进 行 分 组 ， 并 打印 每 个 分 组 的 制 片 公司 名 称 。 无 
论 多 少 个 元 组 使 用 了 这 个 制 片 公司 名 称 ， 它 只 打印 一 次 。 这 样 ， 上 面 的 查询 和 语句 


SELECT DISTINCT studioName 
FROM Movie; 
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有 同样 的 效果 。 

也 可 以 在 多 关系 查询 中 使 用 GROUP BY 子 句 。 这 种 查询 可 以 由 下 面 几 步 来 说 明 。 

1. 计算 由 FROM 和 WwHERE 子 句 所 表达 的 关系 R。 也 就 是 说 ，R 是 对 FROM 子 句 中 的 关系 进行 积 
运算 后 再 用 WwHERE 中 的 条 件 进行 选择 操作 后 形成 的 关系 。 

2. 根据 GROUP BY 于 名 中 的 属性 对 R 进 行 分 组 操作 。 

3. 把 SELECT 子 句 中 的 属性 和 聚集 运算 作为 查询 结果 输出 ， 就 好 像 查 询 是 在 一 个 存储 关系 
R 上 进行 的 。 

例 6.32 假定 想 要 打印 每 个 制 片 人 制作 电影 的 总 长 度 ， 那 么 需要 用 到 两 个 关系 


Movie(title, year, length, inColor, studioName, producerC#) 

MovieExec(name, address, cert#, netWorth) 

因此 ， 开 始 使 用 9 连接 ， 要 求 两 个 关系 的 证 书号 ( cert# 和 producerc# ) 相同 。 这 一 步 
给 出 了 一 个 关系 ,该 关系 中 每 一 个 MovieExec 元 组 和 Movie 中 的 元 组 连接 ， 条 件 是 
MovieExec 元 组 表示 的 人 是 这 些 电影 的 制 片 人 ， 否 则 元 组 不 会 和 任何 Movie 中 的 元 组 配对 的 ， 
也 就 不 会 在 结果 关系 中 出 现 。 现 在 ， 可 以 根据 制 片 人 的 名 字 对 从 关系 中 选择 出 来 的 元 组 进行 分 
组 。 最 后 ， 对 分 组 中 电影 的 长 度 求 和 。 图 6-13 给 出 了 查询 。 口 


SELECT name, SUM(length) 
FROM MovieExec, Movie 


WHERE producerC# = cert# 
GROUP BY name; 


图 6-13 计算 每 个 制 片 人 的 电影 长 度 之 和 





6.4.6 HAVING 子 名 

假设 不 希望 查询 所 有 在 例 6.32 的 结果 中 出 现 的 制 片 人 。 此 时 ， 元 组 在 分 组 之 前 就 按 某 种 方 
式 加 上 限制 ， 使 得 不 需要 的 分 组 为 空 。 例 如 ， 如 果 只 统计 资产 在 $10 000 000 以 上 制 片 人 的 制作 
的 电影 长 度 ， 则 将 图 6-13 的 第 三 行 变 为 


WHERE producerC# = cert# AND networth > 10000000 


另外 ， 如 果 分 组 时 需要 考虑 某 些 聚 集 操作 ， 可 以 在 GROUP BY 子 句 后 面 加 上 一 个 HAVING 
子 句 。 后 者 由 保留 字 HAVING 后 跟 一 个 分 组 的 条 件 组 成 。 

例 6.33 ”假定 需要 打印 至 少 曾 在 1930 以 前 制作 过 一 部 电影 的 制 片 人 制作 的 电影 总 长 度 ， 则 
在 图 6-13 后 面 加 上 子 句 HAVING MIN(year) < 1930 


SA. RRS 
当 元 组 含有 空 值 时 ， 要 记 住 下 面 几 个 规则 : 

。 空 值 在 任何 聚集 操作 中 都 被 忽视 。 它 对 求 和 、 取 平均 和 计数 都 没有 影响 。 它 也 不 能 
是 某 列 的 最 大 值 和 最 小 值 。 例 如 ，COUTN (*) 是 某 个 关系 中 所 有 的 元 组 数目 之 和 ， 
但 是 COUNT (A) 却 是 4 属性 非 空 的 元 组 个 数 之 和 。 

。 另 一 方面 ，NULL 值 又 可 以 在 分 组 属性 中 看 做 是 一 个 一 般 的 值 。 例 如 SELECT a, 
AVG(b) FROM R 中 当 4 的 属性 值 为 空 时 ， 就 会 统计 4=NULL 的 所 有 元 组 中 b 的 均 

值 ， 如 果 尺 中 至 少 有 一 个 元 组 的 @ 属 性 值 为 空 的 话 。 


最 后 的 查询 语句 在 图 6-14 中 给 出 。 该 查询 将 会 去 掉 那些 year 字 段 值 大 于 或 等 于 1930 的 元 
组 分 组 。 口 















N 
N 


180 FOF 





SELECT name, SUM{length) 
FROM MovieExec, Movie 
WHERE producerC# = cert# 
GROUP BY name 

HAVING MIN(year) < 1930; 


图 6-14 计算 各 个 早期 制 片 人 的 电影 长 度 和 










下 面 几 个 关于 HAVING 子 句 的 几 条 规则 应 当 记 住 。 

。 HAVING 子 名 中 的 聚集 只 应 用 到 正在 检测 的 分 组 上 。 

“所 有 FROM 子 句 中 关系 的 属性 都 可 以 在 HAVING 子 句 中 用 聚集 运算 ， 但 是 只 有 出 现在 
GROUP BY 子 句 中 的 属性 ， 才 能 以 不 聚集 的 方式 出 现在 HavING 子 句 中 ( 和 SELECT 子 句 
同样 的 规则 )。 







SQL 查询 中 的 子 句 顺 序 

到 目前 为 止 ， 已 经 讨论 了 六 种 可 能 出 现在 select-from-where 查 询 中 的 子 句 。 分 别 是 . 
SELECT. FROM, WHERE, GROUP BY、HAVING 和 ORDER BY, 但 是 ， 只 有 前 两 个 是 
必须 的 ， 而且， 在 不 使 用 GROUP BY 子 句 的 情况 下 不 能 使 用 HAVING 子 身 。 无 论 哪 个 子 
各 都 应 该 按照 上 面 给 定 的 顺序 出 现 。 








6.4.7 习题 
习题 6.4.1 用 SQL 写 出 习题 5.2.1 中 的 查询 ， 结 果 中 去 掉 重 复 的 元 组 。 
习题 6.4.2 用 SQL 写 出 习题 5.2.4 中 的 查询 ， 结 果 中 去 掉 重 复 的 元 组 。 
习题 6.4.3 ”查看 习题 6.3.1 的 答案 ,看 看 你 写 的 查询 结果 中 是 否 有 重复 元 组 出 现 。 如 果 有 的 
话 重 写 该 查询 保证 结果 没有 重复 ; 如 果 没 有 ， 不 使 用 子 查询 ， 再 重 写 一 个 结果 中 不 出 现 重 
复 的 查询 。 
习题 6.4.4 按 习题 6.4.3 的 要 求 重 做 习题 6.3.2。 
习题 6.4.5 ”在 例子 6.27 中 ， 提 到 查询 “ 找 出 Harrison Ford 出 演 电影 的 制 片 人 ”的 不 同 版 本 。 
它们 产生 的 结果 集合 是 相同 的 ， 但 是 却 有 不 同 的 “ 包 ”。 考 虑 例 6.22 中 的 查询 版 本 ， 它 在 
FROM 子 句 中 使 用 了 一 个 子 查询 。 这 个 版 本 的 查询 是 否 会 产生 重复 ? 如 果 是 ， 为 什么 ? 
习题 6.4.6 根据 习题 5.2.1 的 数据 库 模 式 写 出 后 面 的 查询 ， 再 用 该 习题 给 出 的 数据 算出 该 查 
询 结 果 。 

Product (maker, model, type) 

PC(model, speed, ram, hd, rd, price) 


Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 


* a) 查询 PC 速度 的 平均 值 。 

b) 查询 价格 在 92000 以 上 的 手提 中 脑 的 平均 值 。 

c) 查询 制作 商 A 生 产 的 PC 的 平均 价格 。 

d) 查询 制造 商 D 生 产 的 PC 和 手提 电脑 的 平均 价格 。 
e) 求 不 同 速度 的 PC 平均 价格 。 

f) 找 出 各 个 制造 商 生产 的 手提 电脑 的 平均 价格 。 
8) 找 出 至 少 生产 3 种 不 同型 号 PC 的 制造 商 。 

! rh) 找 出 各 个 制造 商 制造 的 PC 的 最 高 销售 价格 。 


— 


x 


* 
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*! i) 找 出 速度 在 800 以 上 的 PC 的 平均 价格 。 
!! 站 对 于 所 有 生产 打印 机 的 制造 商 ， 查 询 其 生产 的 PC 的 硬盘 平均 大 小 。 
习题 6.4.7 ”基于 习题 5.2.4 给 出 的 数据 库 模 式 和 数据 写 出 后 面 的 查询 语句 以 及 查询 结果 。 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles(name, date) 

Outcomes(ship, battle, result) 


a) 找 出 战舰 类 型 的 数量 。 

b) 找 出 不 同类 型 战舰 拥有 的 平均 火炮 数量 。 

c) 找 出 战舰 的 平均 火炮 数量 。 注 意 c ) 和 b ) 的 不 同 在 于 : 在 计算 均值 的 时 候 ， 是 使 用 
战舰 的 数目 还 是 战舰 的 类 型 数目 。 

d) 找 出 每 一 类 型 (class) 的 第 一 稻 船 下 水 的 年 份 。 

e) 找 出 每 一 类 型 中 被 击 沉船 的 数目 。 

f) 找 出 至 少 有 3 条 船 的 类 型 中 被 击 沉 的 船 的 数目 。 

8) 军舰 火炮 使 用 的 炮弹 的 重量 以 磅 为 单位 ) 大 约 是 火炮 的 口径 〈 以 英寸 为 单位 ) 的 
一 半 。 找 出 各 个 国家 的 军舰 炮弹 重量 的 平均 值 。 


习题 6.4.8 ”在 例子 5.23 中 ， 给 出 了 一 个 查询 :“ 找 出 每 个 至 少 演 过 3 部 电影 的 影星 最 早出 演 
的 时 间 。” 该 例 中 使 用 了 7 运算 符 完 成 查询 ， 现 在 请 用 SQL 完成 这 一 功能 。 

*! 习题 6.4.9 ”扩展 的 关系 代数 中 的 y 运算 符 并 不 和 SQL 中 的 HAVING 子 句 完全 对 应 。 是 否 可 
能 在 关系 代数 中 模仿 SQL 中 HAVING 子 句 的 功能 ? 如果 可 以 ， 通 常情 况 下 该 怎样 处 理 ? 


6.5 ”数据 库 更 新 


到 目前 为 止 本 章 的 讨论 都 集中 于 一 般 的 SQL 查询 形式 ， 即 select-from-where 句 型 。 还 有 许 
多 其 他 形式 的 不 返回 查询 结果 的 句子 ， 这 些 句 子 只 改变 数据 库 的 状态 。 在 本 节 中 ， 将 具体 讨论 
如 下 三 种 类 型 的 句子 。 

1. 插入 元 组 到 关系 中 去 。 

2. 从 关系 中 删除 元 组 。 

3. 修改 某 个 元 组 的 某 些 字段 的 值 。 

6.5.1 插入 

插入 语句 的 基本 形式 由 以 下 几 项 构成 。 

1. 保留 字 INSERT INTO, 

2. 关系 R 的 名 字 。 

3. 关系 R 中 括 起 来 的 属性 列表 。 

4. RB FVALUES, 

5. 一 个 元 组 表达 式 ， 即 括 起 来 的 具体 的 值 的 列表 。 每 一 个 值 针 对 列表 (3) 中 的 属性 。 
基本 的 插入 格式 为 : 


INSERT INTO R(A1,...,An) VALUES( Vise.. ); 


该 插入 将 创建 一 个 元 组 ， 其 属性 4; 值 是 vii =1,2,.…,n。 如 果 属 性 列表 不 包括 关系 R 中 所 有 的 
RE, 那么 对 这 些 没有 赋值 的 属性 给 一 个 缺 省 的 值 。 最 常 使 用 的 缺 省 值 是 空 值 NULI， 在 6.6.4 
节 中 还 有 一 些 其 他 的 选项 。 
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例 6.34 ”如 果 要 把 Sydney Greenstreet 加 到 The Maltese Falcon 演 员 列 表 中 去 ， 可 以 这 样 写 插 
人 语句 


1) INSERT INTO StarsIn(movieTitle, movieYear, starName) 
2) VALUES(’The Maltese Falcon’, 1942, ’Sydney Greenstreet’); 


该 语句 的 执行 结果 是 具有 第 2 行 的 三 个 字段 值 的 元 组 被 插 人 到 关系 StarsIn 中 。 由 于 关系 
StarsIn 中 所 有 的 属性 都 在 一 行列 出 ， 也 就 没有 必要 使 用 缺 省 的 属性 值 。 第 2 行 的 值 和 第 1 行 
的 属性 按 给 定 的 顺序 对 应 。 因 此 ”The Maltese Falcon’ 成 为 属性 moviemitle 的 值 ， 其 
他 的 也 是 如 此 类 推 。 口 


如 果 像 在 例子 6.34 那 样 ， 关 系 的 所 有 属性 值 都 给 出 了 ， 那 么 可 以 省 掉 跟 在 关系 名 后 面 的 属 
性 列表 。 其 插入 语句 可 以 写成 

INSERT INTO Starsin 

VALUES(’The Maltese Falcon’, 1942, ”Sydney Greenstreet’); 
注意 ， 当 省 略 属性 列表 时 ， 一 定 要 保证 提供 的 属性 值 的 顺序 和 关系 属性 的 标准 顺序 一 致 。6.6 
节 中 将 介绍 如 何 声明 关系 模式 。 声 明 关 系 的 同时 给 出 了 关系 中 的 属性 排列 顺序 ， 这 个 顺序 在 省 
略 属 性 列表 时 作为 默认 的 排列 顺序 。 

。 如 果 不 能 确定 属性 的 标准 排列 顺序 ， 最 好 在 INSERT 句 子 中 按照 VALUESs 子 句 中 属性 值 的 

顺序 给 出 属性 列表 。 

上 面 给 出 的 简单 INSBRT 语 名 仅仅 播 入 一 个 元 组 到 关系 中 去 。 除 了 明确 地 指定 值 来 插入 一 
个 元 组 以 外 ， 还 可 以 往 关 系 中 插入 使 用 子 查询 计算 出 的 元 组 集合 。 该 子 查询 语句 替换 了 上 面 给 
出 的 TINSERT 语 句 中 的 保留 字 VALUES 和 后 面 的 元 组 表达 式 。 

例 6.35 fEXRStudio (name, address, presc#) 中 添加 在 关系 Movie(title， 
year, length, inColor, studioName, producerC#) 中 提 到 的 ， 但 没有 在 Studqie 出 现 的 
所 有 的 制 片 广 。 由 于 Movie 中 没有 给 出 制 片 厂 的 地 址 和 和 制 片 经 理 ， 插 入 到 stuaio 的 元 组 的 属 
性 adaqress 和 presc# 只 好 使 用 NULL 值 。 图 6-15 给 出 了 一 种 播 人 方式 。 


1) INSERT INTO Studio(name) 
2) SELECT DISTINCT studioName 
3) FROM Movie 


4) WHERE studioName NOT IN 
5) (SELECT name 
6) FROM Studio); 


图 6-15 添加 新 的 制 片 厂 


和 其 他 的 峙 套 SQL 语句 一 样 ， 图 6-15 从 里 层 往外 分 析 较 容易 。 第 5 和 第 6 行 在 关系 Studio 
中 产生 所 有 的 制 片 厂 的 名 字 。 第 4 行 检查 来 自 Movie 关 系 的 制 片 厂 的 名 字 是 否 包含 在 studio 
中 。 这 样 ， 从 第 2 行 到 第 6 行 输出 存在 于 关系 Movie 中 但 不 在 Studio 中 的 制 片 厂 名 字 的 集合 。 
第 2 行 的 DISTINCT 保 留 字 保证 无 论 拍 过 多 少 部 电影 ， 每 个 制 片 厂 在 集合 中 只 出 现 一 次 。 最 后 ， 
第 1 行 语句 把 这 些 制 片 厂 插入 到 关系 studio 中 ， 属 性 adaress 和 presc# 用 NULL 值 填充 。 OF 





插入 的 时 机 选择 


图 6-15 指 出 了 SQL 语句 语义 中 的 一 个 细节 问题 。 原 则 上 ， 第 2 行 到 第 6 行 的 查询 计算 
应 当 在 执行 第 1 行 的 插入 前 完成 。 这 样 插入 到 Studio 中 的 新 元 组 不 会 影响 到 第 4 行 的 执 
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行 。 然 而 ， 有 时 出 于 提高 效率 的 考虑 ， 某 些 实现 可 能 会 使 得 在 执行 第 2 行 到 第 6 行 时 ， 一 
找到 新 的 元 组 就 插入 到 关系 Studio 中 ， 使 之 立刻 发 生变 化 。 

这 个 例子 比较 特殊 ， 插 入 是 否 要 等 到 查询 完全 计算 结束 后 对 结果 没什么 影响 。 但 有 
一 些 其 他 查询 的 结果 受 插 入 时 间 的 影响 。 例 如 ， 如 果 从 图 6-15$ 中 去 掉 DISTINCT 保 留 字 。 
在 插入 前 计算 第 2 行 到 第 6 行 的 查询 。 结 果 会 导致 某 个 多 次 出 现在 Movie 中 的 新 制 片 厂 的 
名 党 在 查询 结果 中 多 次 出 现 ， 并 多 次 插入 到 关系 Studio 中 去 。 然 而 ， 如 果 在 计算 第 2 行 
到 第 6 行 查询 的 同时 将 找到 的 新 的 制 片 厂 揪 入 到 Studio 中 去 ， 那 么 新 的 制 片 厂 就 不 会 重 
复 插入 。 因 为 新 的 制 片 厂 一 旦 添加 一 次 ，StudioName 的 值 就 不 会 满足 第 4 行 到 第 6 行 的 
条 件 ， 也 就 不 会 在 第 2 行 到 第 6 行 的 查询 结果 中 再 次 出 现 。 


6.5.2 删除 
删除 语句 由 以 下 几 项 构成 
1. 保留 字 DELETE FROM; 
2. 关系 名 RR; 
3. 保留 字 WHERE; 
4. 一 个 条 件 。 
删除 语句 的 格式 为 













DELETE FROM R WHERE <condition>; 


该 语句 的 查询 结果 将 是 每 个 满足 条 件 (4 ) 的 元 组 从 关系 R 中 删 掉 。 

例 6.36 从 关系 StarsIn (movieTitle,movieYear,starName) 删 掉 Sydney 
Greenstreet 出 演 电影 The Maltese Falcon 这 一 事实 。 删 除 语句 为 

DELETE FROM StarsIn 


WHERE movieTitle = ’The Maltese Falcon’ AND 
movieYear = 1942 AND 


starName = ’Sydney Greenstreet’ ; 
注意 ， 和 例子 6.34 中 的 插 人 语句 不 同 ， 不 能 简单 地 指定 把 某 个 元 组 删 掉 。 必 须 通过 WHERE 子 名 
明确 地 描述 要 删除 的 元 组 。 口 


例 6.37 这 里 是 删除 语句 的 另 一 个 例子 。 这 次 是 从 关系 


MovieExec(name, address, cert#, netWorth) 
一 次 删 掉 多 个 元 组 。 给 出 的 条 件 可 能 有 多 个 元 组 满足 。 语 和 铝 


DELETE FROM MovieExec 
WHERE netWorth < 10000000; 


删 掉 所 有 的 资产 低 于 一 千 万 的 制 片 经 理 。 口 
6.5.3 更 新 

虽然 可 以 把 对 数据 库 的 更 新 想 成 是 插入 和 删除 操作 的 组 合 ， 但 在 SQL 中 ， 更 新 (update ) 
是 数据 库 一 种 特定 改变 。 数 据 库 中 已 存在 的 一 个 或 多 个 元 组 的 某 些 字段 值 发 生 改变 。 更 新 语句 
的 一 般 构 成 为 : 

1. 保留 字 UPDATE; 

2. 关系 名 R; 
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3. 保留 字 SET; 
4. 一 组 公式 ， 设 置 关系 R 中 的 属性 等 于 某 个 表达 式 或 常量 值 ; 
5. 保留 字 WHERE; 
6. 一 个 条 件 。 
更 新 语句 的 格式 为 


UPDATE R SET <new-value assignments>WHERE <condition>; 
每 一 个 赋值 (第 4 项 ) 由 一 个 属性 、 一 个 等 号 和 一 个 公式 组 成 。 如 果 存 在 多 个 赋值 ， 就 用 逗号 
隔 开 。 
该 语句 的 执行 结果 是 找 出 所 有 满足 条 件 (6) 的 元 组 ， 然 后 对 于 找到 的 元 组 根据 (4) 列 出 的 
公式 进行 更 新 ， 赋 给 R 中 元 组 相应 属性 指定 的 值 。 
例 6.38 更 新 关系 


MovieExec(name, address, cert#, netWorth) 


在 每 个 还 是 制 片 厂 制 片 经 理 的 制 片 人 名 字 前 加 上 称呼 Pres . 。MovieExec 中 待 修改 元 组 满 
足 的 条 件 是 导演 的 证 书号 出 现在 关系 SEcudio 中 某 些 元 组 的 的 presc# 字 段 值 上 。 该 修改 语 
名 为: 

1) UPDATE MovieExec 


2) SET name = ’Pres. ’ || name 
3) WHERE cert# IN (SELECT presC# FROM Studio) ; 


第 3 行 检查 MovieExec 中 的 某 个 证 书号 是 否 作 为 关系 Studio 中 某 个 制 片 厂 经 理 的 证 书号 
出 现 。 

第 2 行 对 选 定 的 元 组 执行 修改 操作 。 前 面 讲 过 I 操作 符 表示 字符 串 的 连接 。 这 样 ， 在 元 组 旧 
的 name 字 段 值 前 加 上 了 字符 串 Pres . 和 一 个 空格 。 新 的 字符 串 成 为 该 元 组 新 的 name 字 段 值 ， 
效果 上 就 是 ”Pres . ”加 在 了 旧 的 name 字 段 值 前 面 。 口 


6.5.4 习题 
习题 6.5.1 根据 习题 5.2.1 给 出 的 数据 库 模 式 ， 写 出 下 面 的 数据 库 修改 。 描 述 对 该 习题 数据 
修改 后 的 结果 。 


Product (maker, model, type) 

PC(model, speed, ram, hd, rd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 


a) 通过 两 条 INSERT 语 句 在 数据 库 中 添加 如 下 信息 ; 制造 商 C 生 产 的 型 号 为 1100 的 PC ， 
速度 为 1800，RAM 为 2356， 硬 盘 大 小 80， 具 有 一 个 20x 的 PVD， 售 价 为 $2499。 

b) 加 入 如 下 信息 : 对 于 数据 库 中 的 每 台 PC， 都 对 应 一 台 与 其 速度 、RAM、 硬 盘 相 同 ， 
具有 一 个 15 英 寸 的 屏幕 ， 型 号 大 于 1100、 价 格 高 于 $500 的 相同 厂商 制造 的 手提 电脑 。 

c) 删除 所 有 硬盘 不 超过 20G 的 PC。 

d) 删除 所 有 不 制造 打印 机 的 厂商 生产 的 手提 电脑 。 

e 厂商 A 收购 了 厂商 B。 将 所 有 B 生 产 的 产品 改 为 由 A 生产 。 

f) 对 于 每 台 PC， 把 它 的 内 存 加 倍 并 且 增 加 20G 的 硬盘 容量 。( 记 住 UPDATE 语 句 中 可 以 
同时 更 改 多 个 属性 的 值 ) 

! 史 把 厂商 B 生 产 的 手提 电脑 的 屏幕 尺寸 增加 一 英寸 并 且 价格 下 调 $100。 
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习题 6.5.2 ”根据 习题 5.2.4 给 出 的 数据 库 模式 ， 写 出 下 面 的 数据 库 更 新 语句 ， 描 述 对 该 习题 
数据 修改 后 的 结果 。 


Classes(class, type, country, numGuns, bore, displacement) 
Ships (name, class, launched) 

Battles(name, date) 

Outcomes (ship, battle, result) 


* a) 两 艘 Nelson 类 型 的 英国 战舰 -Nelson 和 Rodney- 在 1927 年 下 水 。 两 者 都 具有 16 英 寸 口 
径 的 火炮 ， 排 水 量 为 34 000 吨 。 把 这 条 信息 加 入 到 数据 库 中 。 

b) PARE Vittorio Veneto 类 型 的 意大利 战舰 -Vitorio Veneto 和 Italia- 在 1940 年 下 水 ; 第 三 
条 同样 类 型 的 船 -Roma 在 1942 年 下 水 。 每 艘 船 都 有 15 英 寸 口径 火炮 和 41 000 吨 的 排 
水 量 。 把 这 些 信 息 加 入 到 数据 库 中 。 

* c) 删除 所 有 在 战役 中 沉没 的 船只 。 
* d) 更 新 Classes 关 系 使 得 火炮 口径 使 用 厘米 作为 单位 ( 1 英寸 = 2.5 厘 米 )， 排 水 量 使 
用 公制 吨 。( 1 公制 吨 = 1.1 吨 )。 
e) 删除 所 有 少 于 3 艘 船 的 类 型 。 


6.6 SQL 中 的 关系 模式 定义 


本 节 中 将 讨论 数据 定义 (data definition )， 这 部 分 的 SQL 涉及 到 数据 库 里 面 的 信息 结构 的 
描述 。 与 之 对 应 的 前 面 所 讲 的 SQL 部 分 -查询 和 修改 - 称 为 数据 操纵 (data manipulation ) e 。 

本 节 的 主题 是 存储 关系 模式 的 声明 。 在 此 将 会 看 到 如 何 描述 一 个 新 的 关系 或 SQL 中 提 到 的 
表 (table )。6.7 节 讲述 视图 的 声明 ， 它 是 一 种 并 不 实际 存储 在 数据 库 中 的 虚 关 系 。 一 些 关于 关 
系 约束 的 更 复杂 的 问题 放 到 了 第 7 章 讲述 。 

6.6.1 数据 类 型 

先 介绍 SQL 系统 支持 的 基本 原子 类 型 。 关 系 中 所 有 的 属性 都 必须 有 一 个 数据 类 型 。 

1, 可 变 长 度 或 固定 长 度 字 符 串 。 类 型 CHAR (n) 表示 m 个 字符 的 固定 长 度 字 符 串 。 如 果 某 个 
属性 的 类 型 是 cHAR (n) ， 那么 关系 中 每 个 元 组 的 该 属性 值 都 是 具有 nn 个 字符 的 字符 串 。 
VARCHAR (n) 表示 最 多 可 以 有 nm 个 字符 的 字符 串 。SQL 人 允许 合理 地 在 不 同 字符 串 类 型 之 间作 类 
型 转换 。 通 常 ， 当 某 字段 值 的 字符 个 数 比 定义 的 类 型 少时 在 后 面 补 上 空格 字符 。 例 如 ,字符 串 
”foo ”成 为 某 个 类 型 为 CHAR (5) 的 字段 值 的 时 候 ， 就 认为 它 是 值 为 ' foo ”的 字符 串 〈 后面 
跟 上 两 个 空格 )。 但 和 其 他 字符 串 比 较 的 时 候 ， 后 面 的 空格 又 可 以 忽略 ( 参考 6.1.3 节 )。 

2. 固定 或 可 变 长 度 的 位 串 。 位 串 和 字符 串 类 似 ， 但 是 它们 的 值 是 由 比特 而 不 是 字符 组 成 。 
类 型 BIT (n) 表示 长 为 n 的 位 串 。BIT VARYING (n) 表示 最 大 长 度 为 的 位 串 。 

3. BOOLEAN 表 示 具 有 逻辑 类 型 的 值 。 可 能 是 TRUE 、FALSE 和 UNKNOWN ( 这 一 点 可 能 会 令 
George Boole 吃 惊 )。 

4. 类 型 INT 和 INTEGER ( 两 者 为 同义词 ) 表示 典型 的 整数 值 。 类 型 SHORTINT 也 表示 整数 ， 
但 是 表示 的 位 数 可 能 小 些 ， 具 体 取决 于 实现 。( 类 似 C 语 言 中 的 int 和 short int). 

5. 浮 点 值 能 通过 不 同 的 方式 表达 。 类 型 FLOAT 和 REAL ( 两 者 为 同义词 ) 表示 典型 的 浮 点 


日 ”从 技术 的 角度 来 说 ， 本 节 讨 论 的 内 容 应 该 是 数据 库 设计 领域 的 内 容 ， 应 当 在 本 书 的 前 面部 分 就 应 该 讲 到 。 
它 和 ODL 在 面向 对 象 数据 库 中 情况 类 似 。 然 而 为 了 使 得 SQL 的 内 容 成 为 一 个 整体 ， 这 样 安 排 也 是 合理 的 。 
所 以 在 本 书 的 内 容 安排 上 做 了 一 点 调整 。 


—— 广 一 


Ra 
S 


N 


6 TE 


数值 。 需 要 高 精度 的 浮 点 类 型 可 以 使 用 DOUBLE PRECISION; 这 些 类 型 的 区 别 也 和 C 语 言 
类 似 。SQL 还 提供 指定 小 数 点 后 位 数 的 浮 点 类 型 。 例 如 DECIMAL (n,d) 允许 可 以 有 n 位 有 效 
数字 的 十 进 制 数 ， 小 数 点 是 在 右 数 第 d 位 的 位 置 。 例 如 0123.45 就 是 符合 类 型 DECIMAL (6,2) 
定义 的 数值 。NUMERIC 几 乎 是 DECIMAL 的 同义词 ， 尽 管 存在 某 些 依赖 于 实现 的 小 差别 。 

6. 日 期 和 时 间 分 别 通过 DATE 和 TIME 数 据 类 型 来 表达 。 在 6.1.4 节 中 讨论 过 日 期 和 时 间 值 。 
它们 实际 上 是 某 个 特定 格式 的 字符 串 。 可 以 把 时 间 和 日 期 强制 转换 成 字符 串 类 型 。 反 之 也 可 以 
把 某 些 格式 字符 弟 转 换 成 日 期 和 时 间 。 

6.6.2 简单 表 定 义 

最 简单 的 关系 模式 的 定义 形式 是 由 保留 字 CREATE TABLE 后 面 跟 上 关系 名 和 括 起 来 的 由 
属性 名 和 类 型 组 成 的 列表 。 

例 6.39 前面 使 用 的 例子 里 面 的 一 个 关系 Moviestar， 在 5.1 节 中 给 出 了 不 是 很 规范 的 描 
述 。 图 6-16 用 SQL 给 出 了 定义 。 头 两 个 属性 name 和 address 都 声明 成 字符 串 类 型 。 但 对 于 
name 属 性 ， 使 用 了 长 度 为 30 的 固定 长 度 字 符 串 ， 长 度 小 于 30 的 名 字 在 后 面 填 上 空格 ,长度 大 
于 30 的 字符 串 则 截断 成 为 30 个 字符 长 的 字符 串 。 与 name 属 性 不 同 ，address 属 性 声明 为 最 大 
长 度 为 255。 的 可 变 长 度 字符 串 ， 这 种 做 法 不 一 定 是 最 好 的 选择 ， 这 里 做 的 目的 是 为 了 说 明 两 
种 不 同 字符 串 类 型 。 

属性 gender 只 用 一 个 字母 M 或 F 描 述 。 这 样 ， 用 一 个 字符 长 度 的 字符 串 足 以 描述 此 属性 。 
最 后 面 的 birthdate 属 性 自然 要 使 用 DATE 类 型 。 如 果 某 系统 不 完全 支持 SQL 标 准 ， 没 有 提供 
DATE 数 据 类 型 ， 可 以 使 用 CHAR (10) 来 代替 。 事 实 上 日 期 类 型 就 是 用 10 个 字符 长 的 字符 串 表 
示 ， 即 八 个 数字 和 两 个 连 字符 。 口 


1) CREATE TABLE MovieStar ( 
name CHAR(30), 
address VARCHAR(255) , 


gender CHAR(1), 
birthdate DATE 





图 6-16 定义 Moviestar 的 关系 模式 


6.6.3 修改 关系 模式 
要 删除 某 个 关系 可 以 使 用 SQL 语句 


DROP TABLE R; 


此 后 关系 R 不 再 是 数据 库 模式 中 的 一 部 分 。 关 系 中 的 元 组 也 再 无 法 访问 。 

对 于 一 个 长 期 使 用 的 数据 库 ， 一 般 很 少 删除 其 中 的 菜 个 关系 。 通 常 可 能 需要 对 某 些 已 存在 
的 关系 模式 进行 修改 。 修 改 操作 的 语句 通常 以 保留 字 ALTER TABLE 加 上 关系 的 名 字 开 头 。 后 
面 可 以 跟 几 种 选项 。 最 重要 的 两 种 是 : 

1. ADD 后 面 跟 上 列 的 名 字 和 数据 类 型 。 

2. DROP 后 面 跟 上 列 的 名 字 。 

例 6.40 修改 关系 Moviestar， 给 它 增加 属性 phone， 语句 为 : 


O ”255 并 不 是 某 些 说 法 中 作为 专门 使 用 的 特殊 意义 的 数字 。 单 个 字 节 能 保存 0 到 255 大 小 的 整数 。 所 以 可 以 使 


用 一 个 字 节 表示 最 大 长 度 为 255 的 可 变 长 度 的 字符 串 的 字符 个 数 。 再 加 上 表示 字符 串 本 身 的 字符 来 一 起 表示 
变 长 字符 串 。 但 是 商业 数据 库 系 统 通常 都 支持 更 大 长 度 的 可 变 长 字符 串 。 
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ALTER TABLE MovieStar ADD phone CHAR(16) ; 

， 该 语句 的 结果 是 MovieStar 现 在 具有 5 个 属性 ; 前 4 个 在 图 6-16 中 提 到 。 第 5 个 属性 phone 
具有 国定 长 度 为 16 的 字符 串 。 在 实际 的 关系 中 ， 元 组 都 具有 Phone 字段 。 但 是 该 字段 中 没有 电 
话 号 码 值 。 所 以 ， 该 字段 的 值 将 会 为 空 。 在 6.6.4 节 中 ， 将 介绍 不 使 用 NULL 而 使 用 其 他 的 方式 
来 去 确定 默认 值 。 

下 面 的 例子 中 ， 关 系 的 birthdate 属 性 将 被 删 掉 。 


ALTER TABLE MovieStar DROP birthdate; 





口 


6.6.4 默认 值 

当 元 组 被 创建 或 修改 时 ， 并 非 总 是 给 它 的 每 个 字段 指定 值 。 例 如 ， 在 例子 6.40 中 给 关系 增 
加 一 列 时 ,关系 中 已 存在 的 元 组 对 应 此 列 没有 一 个 具体 的 值 ， 通 常 就 使 用 NULL 值 来 蔡 代 该 位 
置 上 某 个 实际 值 。 在 例子 6.35 中 插入 到 关系 Studio 中 的 新 元 组 仅 知道 制 片 厂 名 字 而 不 知道 地 
址 和 经 理 的 证 书号 。 还 有 ， 后 面 的 两 个 属性 有 时 的 确 要 使 用 某 个 值 表示 “目前 未 知 ” 而 不 用 某 
个 实际 的 值 。 

为 了 处 理 这 些 情况 。SQL 提 供 了 NULL 值 ， 它 表示 关系 属性 值 还 没有 指定 。 也 有 一 些 例外 ， 
在 那里 NULL 值 不 允许 被 使 用 ( 见 7.1 小 节 )。 然 而 ， 有 些 情况 下 需要 选择 使 用 默认 值 (default)， 
它 是 在 值 未 指定 或 未 知 的 情况 下 使 用 的 值 。 

通常 ， 在 声明 属性 和 其 数据 类 型 的 地 方 ， 都 可 以 加 上 保留 字 DEFAULT 和 一 个 合适 的 值 。 该 
值 一 般 要 人 么 是 NULL ， 要 么 是 常量 。 系 统 还 提供 其 他 几 种 值 ， 如 当前 时 间 ， 也 可 以 是 一 种 选择 。 

例 6.41 ”重新 考虑 例 6.39。 和 希望 使 用 字符 ? 作为 属性 sender 未 知 时 的 默认 值 ， 使 用 一 个 
可 能 最 早 的 日 期 DATE”0000-00-00” 作 为 某 个 未 知 birthdate 的 默认 值 。 这 只 需 把 图 6-16 
的 第 (4) 和 第 (5) 行 换 成 下 面 两 行 即 可 : 

4) gender CHAR(1) DEFAULT °?’, 

5) birthdate DATE DEFAULT DATE *0000-00-00° 

至 于 其 他 的 例子 ， 如 例 6.40 中 ， 当 增加 新 属性 phone 时 ， 可 以 把 它 的 的 默认 值 声 明成 
”un1listed’。 改 变 默 认 值 的 语句 为 : 


ALTER TABLE MovieStar ADD phone CHAR(16) DEFAULT ’unlisted’; 





O 


6.6.5 索引 
关系 属性 4 上 的 索引 是 一 种 数据 结构 ， 它 可 以 提高 查找 在 属性 4 上 具有 某 个 特定 值 的 元 组 
时 的 效率 。 索 引 通常 有 助 于 包含 有 属性 4 和 常量 比较 的 查询 ， 例 如 4 =3 或 4 二 3。 大 型 关系 数据 
库 中 索引 的 实现 技术 是 数据 库 管理 系统 实现 中 最 重要 的 核心 问题 。 第 13 章 讲述 这 方面 的 内 容 。 
当 关系 变 得 很 大 时 ， 通 过 扫描 所 有 关系 中 所 有 的 元 组 来 找 出 那些 (可 能 数量 很 少 ) 匹配 给 
定 条 件 的 元 组 的 操作 方式 代价 太 高 。 例 如 ， 考 虑 例 6.1 的 查询 : 


SELECT * 
FROM Movie 
WHERE studioName = ’Disney’ AND year = 1990; 


关系 中 可 能 存在 大 约 10 000 部 电影 元 组 ， 但 只 有 大 约 200 部 是 1990 年 制作 的 。 
实现 这 个 查询 最 简单 的 方式 是 取得 所 有 的 10 000 个 元 组 ， 并 用 WHERE 子 句 逐 个 测试 每 个 元 
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组 。 但 如 果 有 某 种 方法 取得 1990 年 的 200 个 元 组 并 逐个 测试 制 片 三 是 否 是 Disney， 那 么 查询 效 
率 就 大 大 提高 。 更 有 效 的 方法 是 能 直接 取得 满足 两 个 条 件 的 10 个 左右 的 元 组 - 制 片 厂 是 Disney， 
制作 年 份 是 1990 年 。 具 体 参 阅 后 面 的 “多 重 索 引 ” 介 绍 。 

虽然 到 目前 为 止 ， 索 引 的 创建 还 不 是 任何 SQL 标准 ( 包括 SQL-99 ) 的 一 部 分 ， 但 是 大 部 分 
商用 系统 提供 给 数据 库 设计 者 一 些 机 制 ， 用 来 对 关系 的 某 个 属性 创建 索引 。 下 面 的 句子 是 典型 
的 索引 创建 语句 。 假 定 要 给 关系 Movie 的 Year 属 性 创建 一 个 索引 ， 创 建 语句 可 以 写成 : 


CREATE INDEX YearIndex ON Movie(year); 


该 语句 的 结果 是 在 关系 Movie 的 属性 vear 上 创建 一 个 名 为 YearIndex 的 索引 。 这 样 ，SQL 查 
询 处 理 器 在 处 理 指定 年 份 的 查询 的 时 候 ， 仅 仅 对 指定 年 份 的 元 组 进行 测试 ， 使 获得 查询 结果 的 
时 间 大 大 缩短 。 

通常 ， DBMS 人 允许 对 多 个 属性 创建 一 个 索引 。 这 种 类 型 的 索引 使 用 几 个 属性 的 值 进行 查找 ， 
并 能 有 效 地 找到 给 出 这 些 属性 值 的 元 组 。 

例 6.42 由 于 title 和 year 是 Movie 的 键 ， 所 以 通常 这 两 个 属性 要 人 么 同时 指定 ， 要 么 一 
个 也 不 指定 。 下 面 是 对 这 两 个 属性 声明 的 一 个 索引 。 


CREATE INDEX KeyIndex ON Movie(title, year); 


WA (title, year) 作为 键 ， 所 以 当 给 出 某 个 titie 和 year 时 ， 只 有 一 个 符合 需要 的 
元 组 返回 。 如 果 查 询 同 时 指定 title Myear, 但 是 只 有 一 个 YearIndex 可 以 使 用 ,那么 最 
好 的 情况 是 ， 系 统 先 返回 该 年 份 的 元 组 ， 然后 逐个 检查 每 个 元 组 的 tit1e 是 否 为 给 定 值 。 

通常 情况 是 ， 如 果 多 重 索 引 中 的 键 值 是 某 些 属性 按 特定 顺序 的 组 合 ， 那 么 可 以 使 用 这 个 索 
引 找 出 给 定 属性 列表 中 前 面 的 属性 值 的 全 部 元 组 。 这 样 ， 多 重 索 引 的 设计 即 是 属性 列表 顺序 的 
选择 。 例 如 ， 如 果 查 找 时 对 电影 名 的 指定 比 年 份 的 指定 多 ， 就 使 用 上 面 定 义 的 多 重 索 引 。 如 果 
对 电影 年 份 的 指定 比 对 电影 名 的 指定 多 ， 最 好 创建 一 个 建立 在 (year, title ) 上 的 索引 。 口 


如 果 想 删除 索引 ， 则 使 用 下 面 这 样 的 语句 删除 索引 名 即 可 。 


DROP INDEX YearIndex; 


6.6.6 索引 选择 简介 

数据 库 设 计 者 需要 对 索引 做 一 个 折 中 的 选择 。 这 种 选择 是 衡量 数据 库 设计 成 败 的 一 个 重要 
因子 。 设 计 索 引 时 要 考虑 两 个 重要 的 因素 : 

* 对 某 个 属性 使 用 索引 能 极 大 的 提高 对 该 属性 上 的 值 的 检索 效率 ， 使 用 到 该 属性 时 ， 还 可 

以 加 快 连接 。 

“ 另 一 方面 ， 对 关系 上 某 个 属性 的 索引 会 使 得 对 关系 的 插入 、 删 除 和 修改 变 得 复杂 和 痪 时 。 

索引 的 选择 是 数据 库 设 计 中 最 困难 的 一 部 分 ， 因为 它 需 要 估计 对 数据 库 上 使 用 什么 样 的 查 
询 组 合 以 及 其 他 操作 。 如 果 对 某 个 关系 的 查询 操作 比 对 它 的 更 新 操作 多 ， 那 么 建立 在 该 关系 上 
的 索引 具有 较 高 的 效率 。 对 于 经 常 和 查询 where 子 句 中 的 常量 作 比 较 的 属性 ， 以 及 频繁 出 现在 
连接 条 件 中 的 属性 建立 索引 非常 有 用 。 . 

例 6.43 ”在 图 6-3 中 ， 计 算 连 接 时 使 用 了 穷 举 的 方式 查找 配对 元 组 。 建 立 在 字段 
Movie.title 上 的 索引 有 助 于 快速 地 找 出 Star Wars 对 应 的 电影 元 组 。 在 找到 它 的 证 书号 后 ， 
建立 在 MovieExec . cert# 上 的 索引 ， 有 助 于 快速 地 找到 出 现在 Movi eExec 关 系 中 对 应 证 书 
号 的 人 。 口 
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如 果 更 新 操作 特别 频繁 ， 那 么 创建 索引 要 谨慎 。 即 便 如 此 ， 对 于 频繁 使 用 的 属性 创建 索引 
也 是 值得 的 。 事 实 上 ， 某 些 更 新 操作 也 需要 查找 数据 库 。( 例如 ， 带 有 select-from-where 子 查询 
的 INSERT 语 句 和 带 有 条 件 的 pELETE 语 句 )。 必 须 仔细 地 估算 更 新 和 查询 数量 的 相对 比例 来 决 
定 对 索引 的 使 用 。 

数据 如 何 存储 以 及 索引 是 如 何 实现 的 这 些 细节 问题 还 没有 讲 到 ， 因 为 这 需要 对 数据 库 有 一 个 
总 体 认 识 。 在 下 面 的 例子 中 能 看 出 部 分 问题 。 因 为 关系 通常 是 存储 在 多 个 磁盘 块 上 的 ， 查 询 和 
更 新 的 主要 开销 是 把 磁盘 块 的 数据 传 到 主 存 涉及 的 磁盘 块 数 (参阅 11.4.1 节 )。 利 用 索引 就 可 以 不 
用 检查 整个 关系 找到 某 个 元 组 ， 将 极 大 地 节省 时 间 。 然 而 ， 索 引 本 身 也 需要 占用 磁盘 空间 ， 访 
问 和 更 新 索引 结构 本 身 也 需要 磁盘 操作 。 事 实 上 ， 由 于 更 新 操作 需要 一 次 磁盘 块 读 操作 和 一 次 
写 操作 改变 盘 块 的 内 容 ， 它 所 需 的 磁盘 访问 次 数 是 单独 的 读 操 作 访 问 索引 或 查询 数据 时 的 两 倍 。 

例 6.44 考虑 下 面 的 关系 


StarsIn(movieTitle, movieYear, starName) 


假定 在 关系 上 执行 3 种 数据 库 操作 。 
Q: 查找 某 个 影星 演 过 的 电影 的 名 字 和 年 份 ， 使 用 下 面 形式 的 查询 : 


SELECT movieTitle, movieYear 

FROM StarsIn 

WHERE starName = s; 

其 中 s 是 一 个 常量 o 

Q: 找 出 给 定 的 某 部 电影 的 名 字 。 使 用 下 面 形式 的 查询 ; 
SELECT starName 

FROM StarsIn 

WHERE movieTitle = ¢ AND movieYear = y; 

其 中 t 和 y 是 常量 。 

I 插入 新 的 元 组 到 关系 StarsIn .使 用 下 面 形式 的 插入 语句 : 


INSERT INTO StarsIn VALUES(t, y, $); 


其 中 :，y 和 s 是 常量 。 

对 于 数据 作 下 列 假定 : 

1 StarsIn 存 储 在 10 个 磁盘 块 中 ， 如 果 要 检查 整个 关系 ， 代 价 是 10。 

2. 平均 每 部 电影 有 3 个 影星 ， 每 个 影星 出 现在 3 部 电影 中 。 

3. 由 于 对 于 某 个 给 定 的 影星 或 某 部 给 定 的 电影 ， 其 相关 元 组 可 能 分 布 在 10 个 盘 块 之 中 ， 即 
使 在 scarName 或 moviemitle 和 movievYear 的 组 合 上 建 有 索引 ， 平均 也 需要 3 个 盘 块 访问 操 
作 找 出 某 个 影星 或 某 部 电影 的 3 个 元 组 。 如 果 没 有 对 影星 或 影片 分 别 建 索引 ， 则 需要 10 次 磁盘 
访问 操作 。 

4. 每 次 对 于 给 定 的 属性 值 ， 利 用 索引 找到 对 应 元 组 的 磁盘 块 ， 需要 对 索引 盘 块 做 一 次 读 
操作 。 如 果 索 引 盘 块 需要 更 新 ( 如 在 插入 的 情况 下 )， 那么 还 要 一 次 磁盘 操作 ， 写 回 修改 后 的 
盘 块 。 

5. 同样 地 ， 在 进行 插入 操作 时 ， 需要 一 次 磁盘 操作 读 取 将 要 择 和 人 新 元 组 的 盘 块 。 另 一 次 磁 
盘 操 作用 于 写 回 这 个 盘 块 。 假 定 即 使 在 没有 索引 的 情况 下 ， 也 不 需要 扫描 整个 的 关系 ， 就 能 找 
到 可 以 继续 添加 元 组 的 盘 块 。 | 

图 6-17 给 出 了 三 种 操作 的 代价 ，Q, ( 给 出 影星 的 查询 )， QR HB AAT), A (插入 
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操作 )。 如 果 不 使 用 索引 ， 对 于 Q, 和 0; 则 必须 扫描 整个 关系 ( 代价 为 10 )， 而 捅 人 仅 需 要 访问 一 
个 有 空闲 空间 的 盘 块 并 对 它 重 写 人 一 个 新 的 元 组 。( 代价 为 2， 假 定 盘 块 不 需要 索引 也 可 以 访问 
到 )， 以 上 的 分 析 解 释 了 “No Index” 列 。 

















动作 无 索引 Star 索 引 Movie 索 引 全 索引 
Qn 10 4 10 4 
Q2 10 10 4 4 
I 2 4 4 6 
2+ 8p) + 8p2 4+ 6p, 44+ 6p 6 — 2p, — 2p 


图 6-17 三 种 操作 在 使 用 不 同 索引 的 情况 下 的 操作 代价 


如 果 仅 仅 对 影星 建立 索引 ， 那 么 Cz 仍 然 需要 扫描 整个 关系 〈 代价 为 10 )。 然 而 ，Q1 能 通过 
访问 一 个 索引 块 找到 某 个 给 定 影星 的 3 个 元 组 ， 找 到 这 些 元 组 还 需要 另外 3 次 盘 块 访问 操作 。 插 
入 操作 要求 对 某 一 索引 盘 和 某 一 数据 块 既 要 进行 一 次 读 操 作 ， 又 要 进行 一 次 写 操作 ， 总 共 是 4 
次 磁盘 操作 。 

仅 对 电影 建立 索引 的 情况 和 仅 对 影星 建立 索引 的 情况 类 似 。 最 后 ， 如 果 对 影星 和 电影 都 建 
立 索 引 。 那 么 回答 2, 和 :都 需要 4 次 磁盘 操作 。 但 是 插 人 /就 需要 对 两 个 索引 盘 块 和 一 个 数据 盘 
块 进行 读 写 操作 ， 总 共 需 要 6 次 磁盘 操作 。 上 面 的 分 析 解 释 了 图 6-17 的 最 后 一 列 。 

图 6-17 的 最 后 一 行 给 出 了 操作 的 平均 代价 。 假 定 执行 CQ 的 时 间 比 例 是 mi ， 执 行 C: 的 时 间 比 
例 是 P2> 因此 ， 1 的 时 间 比例 是 1-Pi-paz。 

随 着 p1 和 p2 的 取 值 不 同 ， 给 出 四 种 方案 对 于 三 种 操作 都 可 能 产生 最 低 的 平均 代价 。 例 如 ， 
如 果 p1=p2=0.1， 那 么 表达 式 2 + 8pi4 8p: 最 小 ， 所 以 这 时 可 以 不 用 索引 。 也 就 是 如 果 插 入 操作 
是 主要 的 ， 只 有 少量 的 查询 ， 那 么 就 不 需要 索引 。 另 一 种 情况 ， 如 果 m=pz=0.4， 那 么 公式 6- 
2p1-2p2 将 会 是 最 小 的 ， 这 时 可 以 选择 对 starName 和 (movieTitle,movieYear) 组 合 都 建 
立 索引 。 直 觉 上 ， 如 果 进 行 大 量 的 查询 ， 并 且 对 指定 电影 的 查询 数目 和 对 指定 影星 的 查询 数目 
大 致 相同 时 ， 则 两 个 索引 都 需要 。 

如 果 Pi=0.5，P=0.1， 那 么 仅 有 影星 索引 给 出 了 最 好 平均 性 能 值 ， 因 为 4+6p; 取 到 最 小 值 。 
同样 地 ，p1=0.1 和 p=0.5 要 求 创建 一 个 仅 建 立 在 电影 上 的 索引 。 直 观 意义 上 ， 如 果 某 类 查询 非 
BAR, 那么 就 仅仅 创建 有 助 于 该 查询 的 索引 。 口 


6.6.7 习题 


* 习题 6.6.1 ”在 本 节 中 ， 仅 对 例子 中 使 用 的 一 个 关系 Moviestar 给 出 了 规范 定义 。 请 对 其 
他 四 个 关系 也 给 出 规范 定义 。 


Movie(title, year, length, inColor, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 

MovieExec(name, address, cert#, netWorth) 

Studio(name, address, presC#) 


习题 6.6.2 ”下面 再 次 给 出 习题 5.2.1 中 的 不 规范 的 数据 库 模 式 的 定义 ， 写 出 符合 下 面 要 求 的 
声明 语句 。 

Product (maker, model, type) 

PC(model, speed, ram, hd, rd, price) 


Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 


a) 关系 Product 的 一 个 适当 模式 。 
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b) 关系 PC 的 一 个 适当 模式 。 
* c) 关系 Laptop 的 一 个 适当 模式 。 
d) 关系 Printer 的 一 个 适当 模式 。 
e) 修改 (qd) 定义 的 模式 ， 删 掉 属性 color。 
* 对 (c) 定 义 的 模式 进行 修改 ， 增 加 属性 cq。 如 果 某 个 手提 电脑 没有 CD 的 话 ， 令 该 属 
性 的 默认 值 为 ”none’。 
习题 6.6.3 下 面 是 习题 5.2.4 中 的 不 规范 的 模式 定义 


Classes(class, type, country, numGuns, bore, displacement) 
Ships (name, class, launched) 

Battles(name, date) 

Outcomes(ship, battle, result) 


写 出 如 下 声明 。 

a) 关系 Classes 的 一 个 适当 模式 。 

b) 关系 Ships 的 一 个 适当 模式 。 

c) 关系 Battles 的 一 个 适当 模式 。 

d) 关系 Outcomes 的 一 个 适当 模式 。 

e) 修改 关系 Classes， 删 掉 属 性 bore。 

f) 修改 (b) 中 的 关系 Sships ， 加 入 新 的 属性 yard， 它 给 出 了 该 船 的 船坞 。 
习题 6.6.4 解释 语句 DROP R 和 语句 DELETE FROM R 的 不 同 。 
习题 6.6.5 ”假定 例子 6.44 讨 论 的 StarsIn 关 系 需要 100 个 块 而 不 是 10 个 ， 但 该 例 其 他 条 件 
都 不 变 。 用 包含 p1 和 ps 两 项 的 公式 ， 给 出 在 使 用 索引 和 不 使 用 索引 的 四 种 组 合 情 况 下 ， 查 
WO. ORAM. 


6.7 视图 定义 


用 CREATE TABLE 语 句 定义 的 关系 实际 存储 在 数据 库 中 。 也 就 是 说 ，SQL 系 统 以 物理 组 
织 方式 存储 表 。 它 们 是 持久 的 ， 即 它 能 以 某 种 方式 存在 ， 除 非 对 它们 明确 地 使 用 6.5 节 中 的 
INSERT 语 名 或 其 他 修改 语句 进行 更 新 ， 否 则 它 将 保持 不 变 。 

还 有 另 一 类 称 为 视图 (view) 的 SQL 关系 ， 它 不 以 物理 形式 存在 。 而 且 ， 视 图 通过 类 似 查 
询 的 表达 方式 定义 。 可 以 将 视图 当 作 物理 存在 进行 查询 ， 在 某 些 情况 下 ， 视 图 也 可 以 更 新 。 
6.7.1 视图 声明 

最 简单 的 视图 定义 形式 由 以 下 几 项 构成 : 

1) 保留 字 CREATE VIEW; 

2) 视图 的 名 字 ; 

3) RE FAS; 

4) 一 个 查询 QO。 此 查询 为 视图 的 定义 。 任 何 时 候 对 视图 查询 时 ，SQL 的 表现 好 像 是 O 在 此 
时 立即 执行 ,查询 是 作用 在 @ 产 生 的 关系 上 。 

这 样 ， 简 单 视 图 定义 的 形式 为 


CREATE VIEW <view-name> AS <view-definition>; 


— 


we 
© 
= 


例 6.45 在 关系 Movie (title, year, length, incolor, studioName, 
producercC#) 上 创建 一 个 视图 ， 该 视图 包含 Paramount 制 片 厂 出 品 的 电影 名 字 和 年 份 。 可 以 这 
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样 定义 视图 

1) CREATE VIEW ParamountMovie AS 

2) SELECT title, year 

3) FROM Movie 

4) WHERE studioName = ’Paramount’ ; 

首先 ， 在 第 1 行 中 给 出 了 视图 的 名 字 ParamountMovie。 在 第 2 行 中 列 出 了 视图 的 属性 ， 
即 title 和 year。 视 图 定义 为 第 2 到 第 4 行 的 查询 。 口 


6.7.2 视图 查询 

关系 ParamountMovie 并 不 真正 地 包含 元 组 。 对 ParamountMovie 查 询 时 ， 需 要 从 基 表 
Movie 中 取得 适当 的 元 组 才能 获得 查询 结果 。 在 使 用 过 程 中 ， 可 能 两 次 对 ParamountMovie 
的 查询 结果 都 不 同 。 原 因 是 虽然 没有 改动 视图 ParamountMovie 的 定义 , 但 是 基 表 Movie 在 
此 期 间 改 动 了 。 

例 6.46 可 以 把 视图 ParamountMovie 当 一 个 存储 的 表 来 使 用 ,例如 


SELECT title 
FROM ParamountMovie 
WHERE year = 1979; 


KR. RAR . 
SQL 程序 员 豆 欢 把 术语 “关系 ”叫做 “ 表 "。 原 因 是 区 分 存储 关系 ( 称 为 表 ) 和 应 拟 关 
R (RARE) 在 实际 中 很 重要 。 现 在 我 们 知道 了 表 和 视图 的 关系 。 以 后 将 在 表 和 视图 


使 用 的 地 方 使 用 关系 这 个 术语 。 当 需要 重点 强调 关系 是 实际 存储 的 物理 存在 而 不 是 一 个 
RAN, HEARE “AXA” A “RR”, 

还 有 第 三 类 关系 ， 它 既 不 是 视图 也 不 是 国定 存储 的 物理 存在 。 这 些 关系 是 如 某 些 子 
查询 所 创建 的 暂时 结果 。 它 们 也 可 以 称 为 关系 。 


利用 视图 ParamountMovie 的 定义 把 上 面 的 查询 转换 成 一 个 新 的 查询 ， 新 查询 仅仅 作用 
在 基 表 Movie 上 。6.7.5 节 中 将 会 介绍 如 何 把 对 视图 的 查询 转换 成 对 基 表 的 查询 。 这 里 的 简单 例 
子 很 容易 推出 对 视图 查询 的 含义 。 注意 到 ParamountMovie 和 Movie 在 两 方面 不 同 : 
1. 属性 title 和 year 是 关系 ParamountMovie 产 生 的 。 
2. 条 件 studioName =’ Paramount’ 是 对 ParamountMovie 任 意 查 询 的 WHERE 子 句 
的 一 部 分 。 有 既然 结果 中 只 需要 tit1e 属 性 ，(1) 显 然 能 满足 要 求 。 对 于 (2) 需 要 把 条 件 
studioName=”Paramount” 加 到 查询 中 的 WHERE 子 句 中 去 。 这 样 ， 在 FROM 子 句 中 的 





” ParamountMovie 都 可 以 用 Movie 来 替代 ， 并 且 不 改变 查询 的 意义 。 这 样 查询 


SELECT title 
FROM Movie 
WHERE studioName = ’Paramount’ AND year = 1979; 


虽然 是 对 基 表 的 查询 ， 但 是 和 原来 对 视图 ParamountMovie 的 查询 有 同样 的 效果 。 注 意 ， 这 


部 分 转换 工作 是 由 SQL 系统 完成 ， 这 里 的 推理 过 程 是 为 了 讲解 视图 的 查询 过 程 。 口 
例 6.47， 可 以 在 查询 中 同时 使 用 视图 和 基 表 ， 下 面 给 出 一 个 例子 


SELECT DISTINCT starName 
FROM ParamountMovie, StarsIn 
WHERE title = movieTitle AND year = movieYear; 
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这 个 查询 查找 出 所 有 Paramount 电 影 的 名 字 。 注 意 这 里 出 现 的 DISTINCT 保 留 字 保 证 每 个 
影星 只 列 出 一 人 次， 无论 他 在 多 少 部 Paramount 公 司 的 电影 里 出 现 过 。 口 


例 6.48 ”考虑 一 个 用 来 定义 视图 的 复杂 查询 。 目 的 是 生成 一 个 具有 电影 名 字 和 人 制 片 人 的 关 
系 。 定 义 视图 的 查询 使 用 了 两 个 关系 。 从 关系 Movie (title, year, length, inColor, 
studioName, producerC#) 可 以 得 到 制 片 人 的 证 书号 ， 而 关系 MovieExec (name, 
address, cert#, netWorth) 则 可 以 通过 证 书号 得 到 制 片 人 的 名 字 。 整 个 语句 可 以 写作 : 

CREATE VIEW MovieProd AS 

SELECT title, name 


FROM Movie, MovieExec 
WHERE producerC# = cert#; 


可 以 把 这 个 视图 看 做 一 个 存储 的 关系 来 查询 。 例 如 ， 要 找 出 Gone With the Wind， 查 询 语句 


SELECT name 
FROM MovieProd 
WHERE title = ’Gone With the Wind’; 


对 于 任何 视图 查询 ， 都 可 以 将 其 当 作 等 价 关系 上 对 基 表 的 查询 处 理 ， 例 如 ， 上 述 查 询 可 以 
看 做 : 


SELECT name 
FROM Movie, MovieExec 
WHERE producerC# = cert# AND title = ’Gone With the Wind’; 


口 


6.7.3 重 命名 属性 
有 时 想 把 视图 的 属性 名 改 成 其 他 的 名 字 ， 而 不 使 用 定义 视图 时 来 自 查询 的 属性 名 。 这 时 ， 
可 以 在 CREATE VIEW 十 可 中 视图 名 后 面 用 括号 括 起 一 个 指定 的 属性 列表 来 达到 目的 。 例如 ， 
可 以 这 样 重 写 例子 6.48 的 视图 定义 : 
CREATE VIEW MovieProd(movieTitle, prodName) AS 
SELECT title, name 


FROM Movie, MovieExec 
WHERE producerC# = cert#; 


视图 还 是 原来 那个 ， 但 是 列 名 从 title 和 name 改 成 了 movieTitle 和 prodName。 
6.7.4 视图 更 新 

在 某 些 特定 条 件 下 可 以 对 视图 进行 插 人 、 删 除 和 修改 。 这 种 说 法 听 起 来 没什么 意义 ， 因 为 
视图 不 像 基 表 (存储 关系 ) 那样 实际 存在 。 那 么 插入 元 组 到 视图 里 面 意味 着 什么 ?插入 的 元 组 
放 到 哪里 了 ? 数据 库 系 统 怎么 记 住 这 个 操作 ? 

对 于 多 数 视图 ， 答 案 是 “不 能 这 样 做 "。 然 而 ， 对 于 那些 “充分 简单 ”的 视图 ， 有 时 也 称 
为 “可 更 新 视图 (updatable view )”， 可 以 把 对 视图 的 更 新 转变 成 一 个 等 价 的 对 基 表 的 更 新 ， 
更 新 操作 最 终 作 用 在 基 表 上 。 如 果 某 视图 允许 更 新 ，SQL 提 供 规范 更 新 定义 。SQL 规 则 是 复杂 
的 ， 但 大 致 上 ，SQL 人 允许 通过 从 某 个 关系 R 中 (这 个 关系 本 身 也 可 能 是 一 个 可 更 新 的 视图 ) 选 
择 (使 用 SELECT， 而 不 是 SELECT DISTINCT) 某 些 属性 来 定义 可 更 新 视图 ， 这 类 视图 有 两 
个 重要 的 特点 : 

。WHERE 子 句 中 的 子 查 询 中 不 能 使 用 关系 R。 


w 
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。 视 图 定义 语句 中 ，SELECT 子 句 中 的 属性 列表 必须 包括 足够 多 的 属性 ， 以 保证 对 视图 进 
行 插入 时 , 将 未 列 出 的 属性 换 成 NULL 值 或 其 他 的 默认 值 。 并 将 构成 新 元 组 插入 到 基 表 中 ， 
该 新 元 组 能 产生 插入 的 视图 元 组 。 

例 6.49 假定 对 例子 6.45 中 的 ParamountMovie 插 入 一 个 元 组 
INSERT INTO ParamountMovie 

VALUES(’Star Trek’, 1979); 
视图 ParamountMovie 基 本 满足 SQL 的 更 新 条 件 ， 因 为 视图 只 是 包含 了 基 表 的 部 分 元 组 。 
ERA 


Movie(title, year, length, inColor, studioName, producerC#) 


惟一 的 问题 是 关系 Movie 的 属性 studioName 不 是 视图 的 一 个 属性 。 对 此 ， 插 入 的 元 组 将 
使 用 NULL 值 而 不 是 ”Paramount ”作为 studioName 的 属性 值 。 这 个 元 组 因而 不 满足 制 片 厂 
Paramount 的 条 件 。 

为 了 使 得 视图 ParamountMovie 可 以 更 新 。 即 使 是 知道 制 片 厂 肯定 是 Paramount， 仍 然 在 
它 的 视图 定义 语句 的 SELECT 子 句 中 增加 一 个 属性 studioName。 视 图 ParamountMovie 新 
的 定义 为 ; | 

CREATE VIEW ParamountMovie AS 

SELECT studioName, title, year 
FROM Movie 
WHERE studioName = ’Paramount’; 


然后 ， 对 可 更 新 的 视图 ParamountMovie 插 人 一 个 元 组 ; 


INSERT INTO ParamountMovie 
VALUES ( ’ Paramount’, ’Star Trek’, 1979); 


为 完成 插入 ,创建 了 一 个 新 的 Movie 元 组 ， 该 元 组 满足 定义 在 关系 Movie 上 的 视图 ， 最 后 
实际 插入 到 基 表 Movie 中 。 对 于 上 面 的 特定 插入 ， studioName 的 字段 值 是 ， Paramount’, 
title 字 段 值 是 ' star Trek’ ，year 字 上 段 值 是 1979。 

其 他 三 个 没有 在 视图 中 出 现 的 属性 length、incolor 和 producerc# 也 存在 于 插入 的 元 
组 中 。 然 而 ， 这 里 无 法 推断 出 它们 的 值 。 作 为 结果 ， 新 的 Movie 元 组 必须 给 这 三 个 字段 填 上 某 
个 默认 值 : 要 么 是 NULL， 要 么 是 对 属性 声明 过 的 其 他 的 默认 值 。 例 如 ， 如 果 对 属性 length 声 
明 某 个 默认 值 0， 其 他 的 两 个 使 用 NULL 作 为 默认 值 。 那 么 插入 到 Movie 中 的 元 组 则 为 : 


title year | length | inColor | studioName | producerC# 


’Star Trek’ ] 1979 | 0 | NULL | Paramount ’ | NULL 


o 


也 可 以 从 可 更 新 视图 中 删除 元 组 。 如 同 视图 的 插入 一 样 ， 删 除 操作 也 是 在 底层 的 关系 R 上 
真正 实现 。 对 视图 中 元 组 的 删除 ， 实 际 是 删除 关系 R 中 的 元 组 。 

例 6.50 删 掉 可 更 新 视图 ParamountMovie 中 所 有 电影 名 中 包含 “Trek” 字符 串 的 电影 。 
其 删除 语句 是 


DELETE FROM ParamountMovie 
WHERE title LIKE ’%Trek%’; 


这 个 删除 转换 成 对 Movie 基 表 的 一 个 等 价 删除 。 惟 一 差别 是 把 定义 视图 ParamountMovie 的 条 
件 加 到 wHERE 子 句 的 条 件 中 。 
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DELETE FROM Movie 
WHERE title LIKE ’%TrekY’? AND studioName = ’Paramount’; 口 


同样 地 ， 对 可 更 新 视图 的 更 新 操作 也 是 通过 底层 关系 完成 。 对 视图 的 更 新 结果 是 更 新 其 底 
层 关系 中 的 元 组 ， 从 而 引起 视图 元 组 的 更 新 。 











为 什么 某 些 视图 是 不 可 更 新 的 
考虑 例 6.48 中 的 视图 ， 它 将 电影 名 字 和 制 片 人 的 名 字 联 系 起 来 。 根 据 SQL 定 义 ， 这 
个 视图 是 不 可 更 新 的 ， 因 为 它 的 FROM 子 句 中 包含 两 个 关系 : MoviefeMoviekxec, 4 
果 想 往 视 图 中 加 入 一 个 元 组 
(Greatest Show on Earth’, ’Cecil B. DeMille’) 


就 必须 往 关 系 Movie 和 MovieExec 中 加 入 元 组 。 可 以 给 属性 length 和 address 提 
供 默认 的 属性 值 ， 但 是 对 于 表示 DeMille 未 知 证 书号 的 producerc# 和 cert# 两 个 视 
为 相等 属性 却 不 好 处 理 。 即 使 对 它们 都 使 用 NULIL 值 ， 由 于 SQL 不 认为 两 个 NULI 值 是 
相等 的 《 见 6.1.5 节 )， 所 以 无 法 使 用 NULL 进 行 连 接 。 这 样 , Greatest Show on 














Earth’ 不 会 和 视图 MovieProd 中 的 : CecilB.DeMille， 连接 。 于 是 插入 操作 不 
成 功 。 





例 6.51 视图 更 新 


UPDATE ParamountMovie 
SET year = 1979 
WHERE title = ?Star Trek the Movie’; 


转换 成 对 基 表 的 修改 。 


UPDATE Movie 

SET year = 1979 

WHERE title = ’Star Trek the Movie’ AND 
studioName = ’Paramount’; 


g 

最 后 一 类 对 视图 的 更 新 是 删除 视图 。 无 论 视 图 是 否 可 更 新 ， 这 种 更 新 操作 总 是 可 以 进行 。 
一 个 典型 的 DROP 语 句 是 

DROP VIEW ParamountMovie; 
注意 这 条 语句 删除 了 视图 的 定义 ， 因此 不 再 可 以 对 此 视图 进行 查询 或 修改 操作 。 但 删除 视图 并 
不 影响 其 底层 关系 的 任何 一 个 元 组 。 相 反 地 ， 

DROP TABLE Movie 
不 但 使 得 表 Movie 从 此 消失 ， 也 使 得 视图 ParamountMovie 不 可 用 。 这 是 因为 使 用 该 视图 的 
查询 会 间接 引用 一 个 不 存在 的 关系 。 
6.7.5 涉及 视图 的 查询 解释 

分 析 如 何 处 理 涉及 视图 的 查询 有 助 于 更 好 地 理解 视图 。 在 16.2 节 中 介绍 一 般 的 查询 处 理 的 
时 候 ， 这 个 问题 还 会 继续 深入 讨论 。 

图 6-18 描 述 的 是 基本 的 思想 。 查 询 @ 在 关系 代数 中 通过 表达 式 树 来 表示 。 视 图 关系 是 表达 
式 树 的 叶子 。 这 里 使 用 了 两 个 叶子 ， 视 图 V 和 W。 要 用 基 表 解 释 查 询 C， 就 需要 找到 视图 Y 和 卫 
的 定义 。 这 些 定义 也 表示 成 关系 代数 中 的 表达 式 树 。 
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为 了 使 查询 只 包括 基 表 ， 将 树 C 中 每 个 表 
示 视 图 的 叶子 节点 替换 成 定义 该 视图 的 树 的 根 SN > 
节点 。 在 图 6-18 中 ， 标 记 W 和 V 的 两 个 叶子 替换 a 
成 了 视图 的 定义 。 最 后 的 结果 是 该 树 成 为 一 个 v w 
基于 基 表 的 查询 ， 并 且 它 和 原始 查询 等 价 。 
， 图 6-18 用 视图 的 定义 来 兰 换 视图 引用 

例 6.52 ”考虑 例 6.46 中 的 视图 定义 和 查询 。 13 Fie a 
其 中 视图 ParamountMovie 的 定义 是 : 

CREATE VIEW ParamountMovie AS 

SELECT title, year 


FROM Movie 
WHERE studioName = ’Paramount’; 


定义 这 个 视图 的 查询 表达 式 树 如 图 6-19 所 示 。 
308 例 6.46 的 查询 为 


SELECT title 
FROM ParamountMovie 
WHERE year = 1979; 


它 查 找 Paramount 在 1979 年 制作 的 电影 。 它 的 表达 式 树 如 图 6-20 所 示 。 注 意 ， 该 树 的 一 个 
叶子 表示 视图 ParamountMovie。 








T title, year T ritte 
© studioName = ' Paramount’ O year = 1979 
Movie ParamountMovie 

图 6-19 视图 ParamountMovie 的 表达 式 树 图 6-20 查询 的 表达 式 树 

因此 图 6-20 中 的 叶子 可 以 替换 成 6-19 中 的 树 来 解释 查 on, 
询 。 替 换 后 的 树 如 图 6-21 所 示 。 

图 6-21 的 树 是 查询 的 一 个 可 以 接受 的 解释 。 但 是 它 的 
表达 过 于 复杂 。SQL 系 统 将 会 对 这 棵 树 进行 转换 ， 使 之 成 C years 1979 
为 例 6.46 中 的 查询 表达 式 树 ， 

SELECT title T sitte, year 

FROM Movie 

WHERE studioName = ’Paramount’ AND year = 1979; 

A, PT DORE BLY BEE Maine year ES PVI FERE LE Oyear -1979 © studioName = ' Paramount” 
上 。 原 因 是 通常 当选 择 操作 不 再 改变 表达 式 的 结果 时 再 做 
投影 操作 。 这 样 ， 在 一 行 上 将 有 两 个 投影 操作 ， 首 先是 对 Movie 


title 和 year 投 影 接 着 投影 tit1le。 很 明显 第 一 个 投影 图 6-21 在 基 表 上 表达 查询 
是 一 个 多 余 的 操作 可 以 去 掉 。 结 果 是 两 个 投影 操作 合并 成 
一 个 对 title 的 投影 操作 。 
两 个 选择 也 可 以 合并 。 通 常 ， 可 以 对 两 个 连续 的 选择 操作 的 条 件 做 AND，, 合并 成 一 个 选择 。 


Cr 
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合并 选择 操作 后 的 表达 式 树 如 图 6-22 所 示 。 口 T sie 
6.7.6 习题 
习题 6.7.1 根据 下 面 的 基 表 构造 满足 如 下 条 件 的 视图 。 S year = 1979 AND studioName = ‘Paramount’ 310 


MovieStar(name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 
Studio(name, address, presC#) Movie 


* a) 视图 RichExec 给 出 了 所 有 资产 在 $10 000 图 6-22 在 基 表 上 简化 查询 
000 以 上 的 制 片 人 的 名 字 、 地 址 、 证 书号 和 资产 。 
b) 视图 StuaioPres 给 出 了 既是 制 片 厂 经 理 ( Studio president )， 又 是 制 片 人 ( Movie 
Executive ) 的 人 的 名 字 、 地 址 、 证 书号 。 
c) 视图 ExecutiveStar 给 出 既是 制 片 人 ， 又 是 影星 的 那些 人 的 名 字 、 地 址 、 性 别 、 
生日 、 证 书号 和 资产 总 值 。 
习题 6.7.2 习题 6.7.1 中 的 视图 哪些 可 更 新 ? 
习题 6.7.3 使 用 一 个 或 多 个 习题 6.7.1 中 定义 的 视图 ， 写 出 下 面 的 查询 ， 但 不 要 使 用 基 表 。 
a) 找 出 既是 影星 又 是 制 片 人 的 女性 。 
* b) 找 出 是 制 片 三 经 理 ， 同 时 资产 至 少 有 $10 000 000 的 制 片 人 。 
! 5) 找 出 是 影星 ， 同 时 资产 至 少 有 $50 000 000 的 制 片 厂 经 理 。 
习题 6.7.4 对 于 例子 6.48 的 视图 和 查询 ， 
a) 给 出 视图 MovieProd 的 表达 式 树 。 
b) 给 出 该 例 中 查询 的 表达 式 树 。 
c) 使 用 基 表 从 (a) 和 (b) 的 答案 中 来 创建 表达 式 ， 以 表示 该 查询 。 
d) 解释 如 何 改变 (c) 的 表达 式 ， 使 之 和 例 6.48 中 的 解决 方式 等 价 。 
习题 6.7.5 ”用 关系 代数 表达 式 来 表示 习题 6.7.3 中 的 查询 和 视图 ， 替 换 查询 表达 式 中 的 视 
图 ， 同 时 尽 可 能 地 简化 结果 表达 式 。 只 使 用 基 表 ， 用 SQL 写 出 对 应 最 后 结果 表达 式 的 查询 
语句 。 
习题 6.7.6 使 用 习题 5.2.4 中 的 基 表 


Classes(class, type, country, numGuns, bore, displacement) 
Ships (name, class, launched) 311 


a) 定义 一 个 视图 ， 它 包括 所 有 英国 船只 的 类 (class )、 类 别 ( type)、 火 炮 数 量 、 口 径 、 
排水 量 和 下 水 年 份 。 


b) 利用 (a) 定 义 的 视图 写 一 个 查询 ， 找 出 在 1919 年 下 水 的 英国 战舰 火炮 数量 以 及 排水 
量 。 


l 9 用 关系 代数 的 形式 表达 查询 (b) 和 视图 (a) ， 试 着 替换 表达 式 中 的 视图 并 且 最 大 程度 
地 化 简 表 达 式 。 l 
! d) 仅 使 用 基 表 classes 和 Ships 写 出 一 个 对 应 (ec) 中 表达 式 的 SQL 语句 。 


6.8 小 结 


* 


“SQL: SQL 语言 是 关系 数据 库 上 使 用 的 主要 查询 语言 。 目 前 最 新 标准 是 SQL-99 或 SQL3。 
商用 数据 库 管理 系统 通常 和 SQL 标准 略 有 出 人 。 
e Select-From-Where# 14: SQL 查询 最 常用 的 形式 是 select-from-where。 它 允许 使 用 几 个 关 
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系 的 积 ( 在 FROM 子 句 中 )， 对 结果 元 组 施加 过 滤 条 件 ( 在 WHERE 子 句 中 )， 并 产生 需要 的 
字段 值 (SELECT 子 句 ) 。 

。 子 查询 ; select-from-where 查 询 能 在 其 他 查询 中 的 WHERE 子 句 或 FROM 子 句 中 作为 子 查 询 
使 用 。 操作 符 EXISTS、IN、ALL 和 ANY 都 可 以 作用 在 wHERE 子 句 中 子 查 询 形 成 的 关系 上 ， 
并 形成 布尔 表达 式 。 

“关系 的 集合 操作 符 : 可 以 通过 分 别 使 用 保留 字 UNION、INTERSECT 和 EXCEPT 连 接 关系 
或 者 产生 关系 的 查询 ， 达 到 实现 关系 的 并 、 交 和 差 的 目的 。 

* 连接 表达 式 : SQL 提 供 的 如 NATURAL JOIN 的 操作 符 ， 作 用 在 关系 上 。 其 本 身 可 以 看 做 
是 一 个 查询 或 是 在 FROM 子 句 中 定义 的 一 个 新 关系 。 

* 空 值 ，SQL 在 元 组 的 字段 值 没 有 指定 具体 值 的 时 候 ， 提 供 一 个 特殊 的 值 NULL。 NULL 的 
逻辑 和 算术 运算 规则 都 比较 特殊 。 任 何 值 和 NULL 值 比较 的 结果 都 是 布尔 值 UNKNOWN ， 
即使 该 值 也 是 NULL 值 。UNKNOWN 值 也 能 在 布尔 运算 中 出 现 ， 但 把 它 看 做 处 于 TRUE 和 
FALSE 之 间 的 一 个 值 。 

" 外 连接 : SQL 提供 一 个 0UTER JION 操 作 符 连接 关系 。 连 接 结果 中 包括 了 来 自 连接 关系 
的 悬浮 元 组 。 在 结果 关系 中 悬浮 元 组 被 十 上 NULL 值 。 

“关系 的 包 (bag) 模型 :SQL 实际 上 把 关系 看 做 装 满 元 组 的 包 而 不 是 元 组 的 集合 。 可 以 使 
用 DISTINCT 保 留 字 来 消除 元 组 重复 。 而 保留 字 ALi 允 许 在 某 些 不 认为 关系 是 包 的 情况 
下 保留 重复 。 

"RA: 关系 中 某 列 的 值 可 以 通过 使 用 保留 字 suUM、AVG (平均 值 )、MIN、MAX 和 COUNT 
进行 统计 〈 聚 集 )。 在 进行 聚集 前 元 组 可 以 通过 GROUP BY 进行 分 组 。 利 用 保留 字 
HAVING 可 以 过 滤 掉 某 些 分 组 。 

“更 新 语句 : SQL 人 允许 改变 关系 中 元 组 的 值 。 可 以 在 SQL 语句 中 使 用 INSERam (插入 新 元 
组 ) DELETE (删除 元 组 ) 和 UPDATE (改变 某 些 存 在 的 元 组 ) 来 达到 目的 。 

* 数据 定义 : SQL 提 供 语 名 对 数据 库 中 的 一 些 对 象 的 模式 进行 定义 。 语 句 CREATE TABLE 
允许 为 存储 的 关系 〈 称 为 表 ) 定义 模式 ， 定 义 时 指定 关系 的 属性 、 数 据 类 型 和 默认 值 。 

“模式 修改 : 可 以 使 用 ALTER 语 句 改 变数 据 库 模式 的 某 些 方面 ， 包 括 增加 或 去 掉 关系 模式 
的 属性 以 及 改变 属性 的 默认 值 。 还 可 以 使 用 DROP 语 句 完全 删除 关系 和 其 他 的 对 象 模式 。 

* 索引 ; 索引 不 是 SQL 标准 的 一 部 分 ， 商 业 SQL 系统 允许 对 关系 的 属性 声明 索引 。 当 查询 
或 更 新 操作 使 用 了 被 索引 的 属性 时 ， 能 加 快 操作 。 

“ 视图: 视图 定义 了 如 何 从 存储 在 数据 库 中 的 表 创建 新 的 关系 〈 视图 )。 可 以 像 被 存储 的 关 
系 那样 来 查询 视图 。SQL 系 统 修改 对 视图 的 查询 ， 就 可 以 修改 对 定义 视图 的 基 表 的 查询 。 


6.9 参考 文献 


SQL2 和 SQL-99 标 准 都 是 可 以 通过 匿名 FTP 从 网 上 获得 。 最 主要 的 地 址 是 
ftp://jerry.ece.umassd.edu/isowg3， 它 的 镜像 网 站 有 ftp://math0 .math.ecu. 
edu/isowg3 和 ftp://tiu.ac.jp/iso/wg3。 它 们 都 使 用 子 目 录 db1l1 /BASEdocs 来 存放 。 
在 本 书 印刷 时 ， 上 面 列 出 的 网 站 有 的 还 不 接受 FTP 访 问 。 我 们 设法 在 本 书 的 网 站 上 提供 信息 使 
读者 能 了 解 到 最 新 的 内 容 。 

有 几 本 书 给 出 了 SQL 编程 的 一 些 细节 内 容 。 在 此 推荐 列 出 [2]， [4 和 [6]。[5] 中 含有 关于 最 
近 SQL-99 标 准 的 较 早 介绍 。 
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[3] 最 先 给 出 了 SQL 的 定义 。 它 是 最 早 实现 的 关系 数据 库 原型 Systme R ( 参阅 [1] ) 的 一 部 分 。 


1. 


Astrahan, M. M. et al., “System R: a relational approach to data manage- 
ment,” ACM Transactions on Database Systems 1:2, pp. 97-137, 1976. 


. Celko, J., SQL for Smarties, Morgan-Kaufmann, San Francisco, 1999. 
. Chamberlin, D. D., et al., “SEQUEL 2: a unified approach to data defi- 


nition, manipulation, and control,” IBM Journal of Research and Devel- 
opment 20:6, pp. 560-575, 1976. 


. Date, C. J. and H. Darwen, A Guide to the SQL Standard, Addison- 


Wesley, Reading, MA, 1997. 


. Gulutzan, P. and T. Pelzer, SQL-99 Complete, Really, R&D Books, Law- 


rence, KA, 1999. 


. Melton, J. and A. R. Simon, Understanding the New SQL: A Complete 


Guide, Morgan-Kaufmann, San Francisco, 1993. 
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第 7 章 约束 和 触发 器 


本 章 讨论 在 SQL 中 创建 “主动 ”(active ) 元 素 的 相关 内 容 。 主 动 元 素 是 一 个 表达 式 或 语句 。 
该 表达 式 或 语句 只 需 编写 一 次 ， 存 储 在 数据 库 中 ， 然 后 在 适当 的 时 间 执 行 。 主 动 元 素 的 执行 
可 以 是 由 于 某 个 特定 事件 引发 ， 如 对 关系 插 人 元 组 ， 或 者 是 当 修改 数据 库 的 值 引起 某 个 逻辑 
值 为 真 。 

应 用 程序 编写 者 面临 的 一 个 问题 是 ， 当 更 新 数据 库 时 ， 新 的 信息 有 可 能 是 错误 的 。 例 如 ， 
手工 录 人 数据 时 常常 有 抄写 或 印刷 错误 。 能 保证 数据 库 拒绝 接受 不 适当 元 组 的 最 直接 方法 ， 是 
对 应 用 程序 中 的 每 个 插入 、 删 除 或 更 新 命令 都 编写 与 其 结合 的 检查 ， 以 保证 其 正确 性 。 但 是 ， 
正确 性 需求 常常 是 复杂 的 ， 也 是 有 重复 的 ， 这 样 应 用 程序 必须 在 每 次 修改 后 都 做 相同 的 测试 。 

幸好 SQL 提 供 了 各 种 技术 把 完整 性 约束 (integrity constraint) 作为 数据 库 模 式 的 一 部 分 。 
本 章 讨论 其 基本 方法 。 首 先是 键 约束 ， 将 一 个 或 一 组 属性 声明 为 一 个 关系 的 键 。 然 后 考虑 引用 
完整 性 。 引 用 完整 性 也 被 称 为 “外 键 约束 ”( foreign-key constraint )， 是 指 一 个 关系 中 的 一 个 属 
性 或 一 组 属性 的 值 (如 studio 中 的 presc# ) 必须 在 另 一 个 关系 的 一 个 或 一 组 属性 的 值 中 出 
现 (如 MovieExec 中 的 cert# )。 

然后 ， 将 属性 上 、 元 组 上 和 关系 上 的 约束 作为 整体 考虑 。 关 系 之 间 的 约束 称 为 “断言 "。 
最 后 ， 讨 论 “ 触 发 器 ”( trigger )， 和 触发 器 是 主动 元 素 ， 它 在 某 个 特定 事件 发 生 时 被 调用 ， 如 对 
一 个 特定 关系 的 插入 事件 。 


7.1 键 和 外 键 


数据 库 中 最 重要 的 约束 ， 是 声明 一 个 或 一 组 属性 形成 关系 的 键 。 如 果 一 组 属性 5 是 关系 R 的 
键 , 则 R 的 任何 两 个 元 组 的 S 中 至 少 有 一 个 属性 值 不 同 。 注意 , 该 规则 也 可 应 用 于 重复 元 组 约束 ， 
即 ， 如 果 R 有 一 个 键 ， 则 R 不 能 有 重复 。 

与 很 多 其 他 约束 一 样 ， 键 约束 在 SQL 的 CREATE TABLE 命 令 中 声明 。 有 两 种 相似 的 声明 
键 的 方法 : 用 保留 字 PRIMARY KEY 或 保留 字 UNIQUE。 一 个 关系 中 只 能 有 一 个 主键 , 但 是 可 
以 有 多 个 “惟一 性 ”声明 。 


在 与 某 个 引用 完整 性 约束 连接 中 ，SQL 也 使 用 “ 键 ” 这 一 术语 。 判定 一 个 关系 中 出 现 的 值 ， 


也 必须 在 另 一 个 关系 的 主键 中 出 现 的 约束 称 做 “外 键 约束 ”。7.1.4 节 将 关注 外 键 约束 。 
7.1.1 主键 声明 

关系 中 只 能 有 一 个 主键 。CRERATE TABLE 中 有 了 两 种 声明 主键 的 方法 。 

1. 当 属 性 被 列 人 关系 模式 中 时 ， 声 明 其 是 键 。 

2. 在 模式 声明 的 项 目 表 中 增加 表 项 〈 目前 仅 能 有 属性 项 ) 声明 一 个 或 一 组 属性 是 键 。 

方法 〈1 ) 是 将 PRIMARY KEY 保 留 字 加 在 属性 类 型 之 后 。 方 法 (2 ) 是 在 属性 列表 中 引入 
一 个 新 元 素 ， 该 元 素 包含 保留 字 PRIMARY KEY 和 用 圆 括号 括 起 的 形成 该 键 的 属性 或 属性 组 列 
表 。 注 意 ， 键 是 由 多 个 属性 构成 时 ， 使 用 此 方法 。 

关系 R 的 属性 集 $ 被 声明 为 键 后 有 两 点 影响 : 

1 R 中 的 两 个 元 组 不 能 有 完全 相同 的 $ 属 性 值 。 任 何 违反 了 该 规则 的 插 人 或 更 新 操作 都 将 引 
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起 DBMS 拒 绝 执行 。 

2. 5 中 的 属性 不 允许 是 NULL 值 。 

例 7.1 考虑 例 6.39 中 关系 Moviestar 的 模式 。 该 关系 的 主键 是 name。 于 是 ， 在 name 声 
明 行 上 加 入 此 事实 。 图 7-1 给 出 了 图 6-16 的 修改 版 。 


1) CREATE TABLE MovieStar ( 
2) name CHAR(30) PRIMARY KEY, 
3) address VARCHAR(255), 


4) gender CHAR(1), 
5) birthdate DATE 





图 7-1 _ name 主键 声明 
另外 ,也 可 以 使 用 独立 的 主键 定义 声明 。 在 图 6-16 的 第 (5) 行 后 面 增加 主键 声明 ， 而 不 
必 在 第 (2 ) 行 中 声明 。 结 果 模 式 声 明 如 图 7-2 所 示 。 口 


1) CREATE TABLE MovieStar ( 
2) name CHAR(30), 
address VARCHAR(255), 


gender CHAR(1), 
birthdate DATE, 
PRIMARY KEY (name) 





图 7-2 独立 的 主键 声明 


例 7.1 中 ， 主 键 是 单个 属性 时 ， 无 论 是 用 图 7-1 的 形式 ， 还 是 用 图 7-2 的 形式 都 可 以 接受 。 可 
是 ， 当 主键 是 由 多 个 属性 组 成 时 ， 必 须要 使 用 图 7-2 方 法 。 例 如 ， 如 果 声 明 Movie 关 系 模式 ， 
它 的 键 是 一 对 属性 title 和 year ， 则 应 该 在 所 有 属性 列表 后 增加 一 行 ; 


PRIMARY KEY (title, year) 


7.1.2 FRUNIQUER AAS 

Fi — FS BTA ERE UNIQUE, BARA ALA BEEPRIMARY KEY 出 现 的 
位 置 ， 或 是 跟 在 属性 类 型 的 后 面 ， 或 是 在 CREATE TABLE 语 句 中 作为 一 个 独立 项 出 现 。 
UNIQUE 声 明 的 意思 与 PRIMARY KEY 声 明 的 意思 几乎 一 样 ， 不 同 点 是 : 

1. 一 个 表 中 可 以 有 多 个 UNIQUE 声 明 ， 但 是 只 能 有 一 个 PRIMARY KEY 声 明 。 

2. 声明 为 PRIMARY KEY 的 属性 (组 ) BSAA (NULL); 但 是 UNIOUE 声 明 允 许 取 空 
fi. 而 且 ， 对 声明 为 UNIQUE 的 属性 取 空 值 时 ， 可 以 会 违反 两 个 元 组 中 声明 为 UNIQUE 的 属性 值 
不 能 完全 相同 的 规则 。 事 实 上 ， 两 个 元 组 中 ， 声 明 为 UNIQUE 的 多 个 腐 性 都 取 空 值 也 允许 。 

DBMS 的 实现 可 以 选择 不 同 的 规则 。 例 如 ， 数 据 库 厂商 可 以 总 是 为 声明 为 PRIMARY KEY 
的 属性 建立 索引 ( 即使 是 该 PRIMARY KEY 是 由 多 个 属性 构成 时 也 如 此 ), 而 其 他 属性 则 需要 
用 户 明 确 调 用 索引 。 另 外 ， 也 可 以 让 表 在 它 的 PRIMARY KEY 上 总 保持 有 序 。 

例 7.2 图 7-1 中 的 第 (2 ) 行 可 以 被 改写 为 

2) name CHAR(30) UNIQUE, 


如 果 两 个 电影 明星 不 能 有 相同 的 地 址 ， 也 可 以 将 第 (3 ) 改 为 ， 


3) address VARCHAR(255) UNIQUE, 


} 
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类 似 地 ， 可 以 将 图 7-2 的 第 (6 ) 行 改 为 : 
6) UNIQUE (name) 
CI 


7.13 强制 键 约束 

第 6.6.5 节 关 于 索引 的 讨论 中 已 知 ， 虽 然 SQL 标 准 没有 规定 ， 但 是 每 个 SQL 的 实现 都 将 创建 
索引 作为 数据 库 模式 定义 的 一 部 分 。 为 了 支持 对 主键 的 查询 ， 系 统 通 常 在 主键 上 建立 索引 。 而 
且 ， 用 户 也 需要 为 声明 为 UNIQUE 的 属性 建立 索引 。 ` 

这 样 ， 当 查询 中 WHERE 短语 包含 键 值 条 件 时 ， 如 例 7.1 中 MovieSstar 关 系 上 的 name = 
”Audrey Hepburn' ， 就 可 以 不 需要 查询 关系 中 的 所 有 元 组 ， 很 快 找到 与 条 件 匹配 的 元 组 。 

很 多 SQL 的 索引 创建 语句 中 提供 保留 字 UNITQUE， 也 就 是 说 ， 在 为 该 属性 建立 索引 的 同时 ， 
该 属性 也 被 声明 为 键 。 例 如 有 语句 : 


CREATE UNIQUE INDEX YearIndex ON Movie(year); 


该 语句 与 6.6.5 节 中 索引 创建 语句 有 相同 的 效果 ， 但 是 该 语句 同时 也 对 Movie 关 系 的 vear 
属性 增加 了 惟一 性 约束 (此 处 假定 并 不 合理 )。 

现在 思考 一 下 SQL 系 统 是 如 何 实 现 强 制 键 约束 的 。 原 则 上 ， 每 当 数 据 库 被 改变 时 都 要 做 检 
查 。 但 是 ， 事 实 上 ， 关 系 R 只 有 在 插入 或 更 新 时 才 可 能 会 破坏 键 约束 ，R 上 的 删除 不 会 破坏 键 
约束 。 因 此 ，SQL 系 统 的 实际 做 法 是 仅 当 对 关系 作 插入 和 更 新 时 才 检 查 键 约束 。 

如 果 SQL 系 统 有 效 地 强制 键 约束 ， 那 么 把 属性 (组 ) 上 的 索引 声明 为 键 是 很 重要 的 。 因 为 
如 果 索 引 有 效 ， 则 无 论 何 时 对 关系 插入 元 组 ， 或 更 新 元 组 中 键 属性 值 ， 都 可 以 使 用 索引 检查 元 
组 是 否 已 有 相同 的 键 属性 值 。 如 果 有 ， 系 统 将 阻止 这 种 更 新 发 生 。 

如 果 在 键 属性 (组 ) 上 没有 索引 ， 仍 然 可 以 强制 键 约束 。 另 外 ， 通 过 对 键 排序 也 可 有 助 于 
查询 。 在 没有 辅助 的 查找 中 ， 系 统 必 须 检查 整个 关系 ， 查 找 与 给 定 值 匹配 的 元 组 。 这 个 过 程 是 
极其 耗 时 的 ， 以 致 大 型 关系 数据 库 的 更 新 实际 上 不 可 能 。 

7.1.4 外 键 约束 声明 : 

数据 库 模 式 上 第 二 种 重要 约束 是 要 求 某 个 属性 的 值 必须 有 意义 。 比 如 ， 关 系 Studio 中 
presCc# 属 性 的 意思 是 要 指定 某 个 制 片 人 。 这 个 隐 含 的 “引用 完整 性 ”约束 是 说 ， 如 果 
Studio 元 组 在 presc# 属 性 上 有 特定 数值 C， 那 么 就 声明 C 是 一 真实 的 制 片 人 。 用 数据 库 的 术 
语 来 说 ,“ 真 实 ” 制 片 人 的 意思 是 认为 他 是 在 MovieExec 关 系 中 提 到 的 一 个 制 片 人 。 因 此 ， 必 
定 有 一 些 MovieExec 的 元 组 ， 它 的 cert# 属 性 值 是 C。 

在 SQL 中 可 以 将 关系 的 一 个 属性 ( 或 属性 组 ) 声明 为 外 键 (foreign key )， 该 外 键 引用 另 一 
个 关系 (也 可 以 是 同一 个 关系 ) 的 属性 ( 组 )。 外 键 声明 隐 含 着 如 下 两 层 意 思 ， 

1. 被 引用 的 另 一 个 关系 的 属性 在 它 所 在 的 关系 中 ， 必 须 被 声明 为 UNIQUE 或 PRIMARY 
KEY。 否 则 ， 就 不 能 由 外 键 声明 。 

2. 在 第 一 个 关系 中 出 现 的 外 键 值 ， 也 必须 在 被 引用 关系 的 某 些 元 组 的 属性 中 出 现 。 更 精确 
地 说 ,车 令 外 键 F 引 用 某 个 关系 的 属性 集 G， 并 假定 第 一 个 关系 中 的 元 组 在 F 属 性 (组 ) 上 的 
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值 非 空 ，i1 元 组 的 F 属 性 值 记 为 1 [F]。 于 是 ， 在 被 引用 的 关系 上 必定 有 元 组 $，s 的 G 属 性 (组 ) Gio 


值 与 ! [四 值 相 等 。 也 就 是 说 ，* [G ] = t [F] 
对 于 主键 ， 有 两 种 方法 声明 外 键 : 
a) 如 果 外 键 是 单个 属性 ， 则 可 以 在 此 属性 的 名 字 和 类 型 之 后 ， 声 明 其 “引用 ”的 属性 
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(被 引用 的 属性 必须 有 主键 或 惟一 性 声明 )。 格 式 如 下 : 

REFERENCES < 表 名 > (< 属性 名 >) 

b) 车 外 键 是 由 一 组 属性 构成 ， 则 在 CREATE TABLE 语 句 的 属性 定义 之 后 ， 用 单独 的 声明 
语句 声明 ， 给 出 外 键 引用 的 表 和 属性 (这些 属性 必须 是 键 )。 声 明 的 格式 为 ; 

FOREIGN KEY (< 属性 名 列表 > ) REFERENCES < 表 名 > (< 属性 名 列表 >，) 

例 7.3 假设 要 说 明 关 系 


Studio(mame, address, presC#) 


其 主键 是 name， 外 键 是 presc#， 被 引用 的 属性 是 关系 MovieExec 的 cert#， 
MovieExec 关 系 如 下 : 


MovieExec(name, address, cert#, netWorth) 


外 键 presc# 可 以 直接 引用 cert#: 


CREATE TABLE Studio ( 

name CHAR(30) PRIMARY KEY, 

address VARCHAR(255) ， 

presC# INT REFERENCES MovieExec(cert#) 
); 
另外 也 可 以 如 下 使 用 单独 的 外 键 声明 语句 完成 : 
CREATE TABLE Studio ( 

name CHAR(30) PRIMARY KEY, 

address VARCHAR(255) , 


presC# INT, 
FOREIGN KEY (presC#) REFERENCES MovieExec(cert#) 


) 

注意 ,被 引用 的 属性 MovieExec 中 的 cert#， 必 须 是 MovieExec 的 键 。 无 论 上 面 使 
用 哪 种 形式 的 声明 ， 其 意义 都 是 说 无 论 何 时 ，studaio 元 组 中 presc# 的 属性 值 ， 都 必须 也 
在 MovieExec 元 组 的 cert# 分 量 中 出 现 。 例 外 情况 是 当 studio 的 元 组 中 presc# 取 空 值 
时 ， 并 不 要 求 cert# 的 值 也 是 NULL (事实 上 ，cert# 是 主键 ， 因 此 它 永远 不 会 有 NULL 
值 )。 口 


7.1.5 维护 引用 完整 性 

从 外 键 的 声明 中 已 知 ， 外 键 声明 意味 着 当 其 属性 值 非 空 时 ， 就 必须 保证 这 些 值 也 应 在 被 引 
用 关系 的 相应 属性 中 出 现 。 但 是 ， 数 据 库 被 更 新 时 ， 如 何 能 保证 其 约束 ”数据 库 系 统 实现 者 可 
以 选择 如 下 三 种 不 同 实现 方法 。 

缺 省 原则 : 拒绝 无 效 更 新 

SQL 有 缺 省 原则 ， 即 当 任 何 更 新 违反 引用 完整 性 约束 时 ， 系 统 拒 绝 执行 此 更 新 。 例 如 ， 例 
7.3 中 要 求 关 系 Studio 中 的 presc# 值 也 必须 是 MovieBxec 中 cert# 属 性 值 ， 于 是 如 下 的 动作 
都 将 被 系统 拒绝 执行 : 

1. 对 Studio 插 人 一 新 元 组 ， 其 presCc# 值 非 空 ， 但 是 它 不 是 MovieExec 关 系 中 任何 元 组 
的 cert# 值 。 插 人 动作 被 系统 拒绝 ， 元 组 插入 不 成 功 。 

2. 更 新 Studio 关 系 元 组 的 presc# 属 性 为 非 空 值 ， 但 是 该 值 不 是 MovieExec 关 系 中 任何 
元 组 的 cert# 值 ， 该 更 新 操作 被 拒绝 ， 元 组 没有 被 更 新 。 
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3. 删除 MovieExec 元 组 ， 该 元 组 的 cert# 值 是 某 个 ( 些 ) studio 元 组 的 presc# 值 。 该 
删除 动作 被 拒绝 ， 元 组 仍 留 在 4oivExec 关 系 中 不 变 。 

4. 更 新 MoivExec 元 组 的 cert# 值 。 没 有 更 新 前 的 cert# 值 是 Studio 关 系 中 某 个 元 组 的 
presc# 值 。 系 统 再 次 拒绝 这 个 更 新 动作 ，cert# 值 保持 不 变 。 

级 联 原 则 

另外 有 一 种 处 理 Movi eExec 关 系 的 删除 和 更 新 ( 即 上 述 3 和 4 两 种 操作 ) 操作 方法 。 这 种 
方法 称 做 级 联 原 则 (cascade policy )。 直 观 上 看 ， 引 用 属性 (组 ) 的 改变 被 仿造 到 外 键 上 。 

在 级 联 原则 下 ， 当 对 制 片 厂 经 理 删 除 MovieExec 元 组 时 ， 为 了 维护 引用 完整 性 ， 也 同时 
删除 scuaioe 中 的 相应 元 组 。 修 改 也 类 似 处 理 ， 当 将 cert# 的 值 从 ci 改 为 cx 时 ， 若 存在 有 
studio 元 组 的 presc# 值 是 c， 则 系统 也 把 presc# 值 从 ci 改 为 c。 

置 空 值 原则 . 

处 理 该 类 问题 的 另 一 种 方法 是 ， 把 与 被 删除 或 更 新 的 制 片 厂 经 理 presc# 值 设置 为 空 值 
( NULL )， 该 原则 称 为 置 空 (set-null ) 原则 。 

通过 外 键 声 明 ， 可 以 为 删除 和 更 新 独立 地 选择 上 述 各 种 方法 。 声 明 的 方法 是 在 ON 
DELETE 或 ON. UPDATE 短 语 后 面 跟着 SET NULL 或 CASCADE 选 项 。 

例 7.4 ”修改 7.3 例 中 对 studio (name， address, presc#) 的 删除 声明 ， 以 及 对 
MovieExec (name, address, cert#, networth) 的 更 新 声明 。 

图 7-3 使 用 例 7.3 的 CREATE ”TABLE 语句 ， 并 用 ON DELETE 和 ON UPDATE 对 其 扩展 。 第 
(5) 行 声明 ， 删 除 MovieExec 元 组 的 同时 ， 也 从 Studio 中 将 该 制 片 人 是 经 理 的 presc# 值 改 
为 NULL。 第 (6) 行 声 明 ， 修 改 MovieExec 的 cert# 值 时 ， Studio 中 具有 该 值 的 presc# 值 
也 被 同时 修改 。 

1) CREATE TABLE Studio ( 


name CHAR(30) PRIMARY KEY, 
address VARCHAR(255), 


presC# INT REFERENCES MovieExec(cert#) 
ON DELETE SET NULL 
ON UPDATE CASCADE 





图 7-3 选择 不 同 原 则 保持 引用 完整 性 


注意 ， 例 子 中 置 空 原则 使 删除 具有 更 多 的 含义 ， 而 级 联 原则 更 适合 于 更 新 。 例 如 ， 制 片 厂 
经 理 退 体 时 ， 制 片 厂 仍然 存在 ， 其 经 理 属性 值 在 经 理 没有 确定 前 要 取 空 值 。 可 是 ， 制 片 厂 经 理 
经 营 证 书号 的 修改 更 像 是 办 事 员 的 改变 。 人 员 继 续 存 在 ， 而 且 将 是 该 制 片 厂 的 经 理 ， 因 此 
studio 中 presc# 属 性 值 也 应 该 随 着 改变 。 C 
7.16 延迟 约束 检查 

假定 在 例 7.3 中 ， stuaio 的 presc# 是 引用 MovieExec 中 的 cert# 外 键 。 Bill Clinton 决 定 ， 
在 他 印 任 美国 总 统 后 ,建立 一 个 电影 制 片 厂 ， 称 做 Redlight 制 片 厂 ， 当 然 他 就 是 该 厂 的 经 理 。 
但 是 ， 执 行 如 下 插入 语句 会 有 些 麻烦 。 


INSERT INTO Studio 
VALUES(’Redlight’, ’New York’, 23456); 


原因 是 ，MovieEBxec 没 有 证 书号 码 为 23456 的 元 组 (假定 23456 是 最 新 为 Bill C Clinton 颁 发 的 证 
BS), 显然 这 违反 了 外 键 约束 。 
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悬挂 元 组 和 更 新 原则 
外 键 值 在 引用 关系 中 不 出 现 的 元 组 称 为 悬挂 元 组 (dangling tuple )， 在 连接 运算 中 不 
满足 条 件 的 元 组 也 称 为 “悬挂 "。 这 两 个 概念 是 紧密 相关 的 。 如 果 元 组 的 外 键 值 在 引用 关 
系 中 不 出 现 ， 则 该 元 组 就 不 会 与 引用 关系 满足 连接 条 件 。 
肪 挂 元 组 是 那些 违反 引用 完整 性 约束 的 外 键 元 组 。 


。 引 用 关系 的 删除 和 修改 缺 省 原则 是 说 ， 当 且 仅 当 引用 关系 中 产生 了 一 个 或 多 个 是 
挂 元 组 时 ， 该 动作 被 阻止 。 

"级 联 原则 是 删除 或 修改 所 有 新 产生 的 悬挂 元 组 (分别 依 赖 于 对 引用 关系 是 更 新 还 
删除 )。 

。 置 空 原则 是 把 每 个 悬挂 元 组 中 外 键 值 设 为 NULL 。 





解决 此 问题 的 一 种 方法 是 先 插入 Redlight 元 组 ， 但 是 经 理 证 书 的 值 为 空 。 如 : 


INSERT INTO Studio(name, address) 
VALUES(’Redlight’, ’New York’); 


这 种 改变 就 避免 违反 约束 。 因 为 Redlight 元 组 插入 时 ， prescC# 的 值 是 NULI ， 系 统 对 空 的 外 键 
不 检查 其 引用 的 列 是 否 有 已 存在 的 值 。 可 是 ， 在 系统 执行 如 下 修改 语句 前 ， 还 必须 要 把 带 有 证 
书号 的 Bil Clinton 元 组 插 人 MovieExec 关 系 。 

_UPDATE Studio 

‘SET presC# = 23456 

WHERE name = ’Redlight’; 

如 果 不 首先 插 人 MovieExec 元 组 ， 该 修改 语句 同样 也 违反 了 外 键 约束 。 

当然 ,在 这 种 情形 ， 把 Redlight 元 组 插入 Studio 之 前 ， 先 把 Bill Clinton 及 他 的 证 书 元 
组 插入 MovieExec， 将 防止 违反 外 键 约束 。 "但 是 ， 当 循环 约束 (circular constraint ) RÆ, 
如 上 仔细 安排 的 数据 库 更 新 顺序 也 不 能 解决 其 违反 约束 问题 。 

例 7.5 ”如果 电影 制 片 人 被 约束 为 是 制 片 三 经 理 ， 则 要 声明 cert# 是 引用 Studio 
(presc#) 的 外 键 。 于 是 presc# 必 须 被 声明 为 UNTQUE。 该 声明 意味 着 ， 两 个 制 片 厂 的 经 理 
不 能 同时 是 同一 个 人 。 

现在 ， 不 可 能 对 制 片 厂 关系 插入 新 元 组 。 因为 不 能 对 studio 揪 人 其 presc# 值 是 新 值 的 
元 组 ， 这 样 做 将 违反 presc# 是 引用 MovieExec (cert#) 的 外 键 约束 。 也 不 能 对 
MovieExec 插 入 其 cert# 值 是 新 值 的 元 组 ， 因 为 这 将 违反 cert# 是 引用 Studio (presC# ) 
的 外 键 约束 。 口 

7.5 例 中 的 问题 可 以 解决 ， 但 是 将 涉及 还 没有 介 Wen en 

1. 首先 ， 需 要 有 将 多 个 SQL 语句 组 成 一 人 

一 个 插入 MovieExec ), 这 个 单元 称 做 “BS”, FEB. om, Ee EULA LIER, 

2. 另外 ， 必须 要 有 一 种 方法 通知 SQL 语句 ， 当 事 务 没 有 结束 〈 针对 事务 的 术语 是 “提交 ”) 

， 不 要 检查 其 约束 。 

对 于 第 1 点 ， 可 以 先 认为 是 成 立 的 ， 但 是 要 能 处 理 第 2 点 ， 还 要 有 如 下 几 点 知识 ; 

a) 任何 约束 一 一 键 ， 外 键 ， 或 其 他 将 在 本 章 中 可 见 到 的 约束 一 一 都 可 声明 为 DEFERRABLE 
或 NOT DEFERRABLE。 后 者 是 缺 省 值 ， 也 即 意味 着 每 次 数据 库 更 新 发 生 时 ， 如 果 需 要 检查 ， 
系统 立即 检查 约束 。 可 是 ， 如 果 约 束 被 声明 为 DEFERRABLE， 则 是 告诉 系统 ， 其 约束 检查 可 以 
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推迟 到 事务 结束 时 进行 。 
b) 如 果 约 束 检查 可 以 推迟 ， 则 需要 声明 INITIRALLY DEFERRED 或 者 INITIALLY 
IMMEDIATE。 前 者 意味 着 除非 告诉 系统 停止 约束 推迟 ， 检 查 将 推迟 到 当前 事务 结束 时 进行 。 
例 7.6 ”图 7-4 给 出 了 将 Studqio 的 外 键 约 东 检查 修改 为 推迟 到 事务 结束 时 进行 的 模式 定义 。 
该 定义 中 ， 将 presc# 声 明 为 UINITQUE， 是 为 便于 其 他 关系 外 键 约束 引用 。 
CREATE TABLE Studio ( 
name CHAR(30) PRIMARY KEY, 
address VARCHAR(255), 
presC# INT UNIQUE 


REFERENCES MovieExec(cert#) 
DEFERRABLE INITIALLY DEFERRED 





图 7-4 修改 presc# 为 UNIQUE， 并 推迟 外 键 约束 检查 


如 果 对 例 7.5 中 提 到 的 ， 假 设 MovieExec (cert#) 是 引用 studio (presc# ) 的 外 键 约 
束 给 出 类 似 的 声明 ， 则 能 够 写 一 事务 ， 分 别 为 每 个 关系 插入 一 元 组 。 但 是 这 两 个 外 键 的 约束 检 
查 将 推迟 到 两 个 插入 动作 完成 之 后 进行 。 这 样 一 来 ， 当 插入 新 的 制 片 厂 和 它 的 新 经 理 ， 并 且 这 
两 个 元 组 具有 相同 的 证 书号 时 ， 没 有 违反 这 两 个 外 键 约束 中 的 任何 一 个 。 口 


对 于 推迟 约束 检查 ， 有 两 点 要 记 住 : 
。 任 何 类 型 的 约束 都 可 以 命名 。7.3.1 节 中 将 讨论 如 何 做 这 件 事 。 
* 如果 一 个 约束 有 名 字 ， 比 如 Myconstraint ， 就 可 以 用 如 下 SQL 语句 将 该 约束 从 立即 检 
查 改 为 推迟 检查 。 
SET CONSTRAINT MyConstraint DEFERRED; 
同样 ， 也 可 以 把 上 面 的 DEFERRED 检 查 改 为 TMMEDIATE。 
7.1.7 习题 
* 习题 7.1.1 5.1 节 的 电影 数据 库 例子 中 ， 对 所 有 关系 都 定义 了 键 ， 


Movie(title, year, length, inColor, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 

MovieStar(name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 

Studio(name, address, presC#) 


修改 习题 6.6.1 的 模式 定义 ,包括 每 个 关系 的 键 声明 。 注 意 关 系 starsTn 中 的 键 是 由 它 的 
所 有 属性 组 成 。 
习题 7.1.2 声明 习题 7.1.1 中 电影 数据 库 的 如 下 引用 完整 性 约束 。 
* a) 电影 的 制 片 人 必须 是 MovierExec 中 的 某 个 制 片 人 。 任 何 对 MovieExec 的 更 新 ， 若 
违反 约束 则 拒绝 该 操作 。 
b) 重复 a)， 但 是 当 违 反 约 东 时 ，Movie 中 的 producerC# 和 置 为 NULL。 
c) 重复 a)， 但 是 当 违 反 约束 时 ，Movie 中 违反 约束 的 元 组 被 删除 或 修改 。 
d) 出 现在 StarsIn 中 的 电影 ， 也 必须 出 现在 Movie 中 。 当 违反 约束 时 ， 拒绝 其 更 新 。 
e) 在 StarsIin 中 出 现 的 电影 ， 也 必须 在 Moviestar 中 出 现 。 当 违 反 约束 时 ， 删 除 违 
规 的 元 组 。 
*! 习题 7.1.3 ”在 关系 Movie 中 的 每 部 电影 都 至 少 在 关系 StarsIn 中 出 现 一 次 ， 这 样 的 约束 
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能 否 用 外 键 约束 声明 ? 并 说 出 其 理由 。 
习题 7.1.4 对 习题 5.2.1 中 的 PC 数据 库 ， 


Product (maker, model, type) 

PC(model, speed, ram, hd, rd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 


给 出 适合 每 个 关系 的 键 。 并 且 修 改 习 题 6.6.2 的 SQL 模式 定义 ， 包 括 这 些 键 的 声明 。 
习题 7.1.5 对 习题 5.2.4 中 的 战 船 数据 库 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles(name, date) 

Qutcomes(ship, battle, result) 


给 出 适合 每 个 关系 的 键 ， 并 修改 习题 6.6.3 的 SQL 模式 定义 ， 包 括 这 些 键 的 声明 。 
习题 7.1.6 ”对 习题 7.1.5 中 的 战 船 数据 库 ， 写 出 其 引用 完整 性 约束 。 根 据 习 题 7.1.3 中 有 关 
键 的 假定 ， 通 过 设置 引用 属性 值 为 NULL 处 理 所 有 违反 约束 之 处 。 
* a) 在 Ships 中 提 到 的 每 一 类 ， 也 必须 在 classes 中 出 现 。 
b) 在 outcomes 中 提 到 的 每 一 次 战役 ， 也 必须 在 Battles 中 出 现 。 
c) 在 OutComes 中 提 到 的 每 稻 战 船 ， 也 必须 在 ships 中 出 现 。 


7.2 属性 和 元 组 上 的 约束 


前 一 节 中 的 键 约束 是 人 迫使 关系 中 某 个 属性 的 值 必须 具有 惟一 性 ， 外 键 约束 是 迫使 两 个 关系 
的 属性 之 间 有 引用 完整 性 。 现 在 ， 介 绍 第 三 种 约束 : 限制 某 些 属性 值 的 约束 。 这 类 约束 可 以 用 
如 下 任 一 种 方式 表达 : 

1. 在 关系 模式 定义 中 给 出 属性 上 的 约束 。 

2. 在 整个 元 组 上 的 约束 。 该 约束 是 关系 模式 的 一 部 分 ， 不 与 任何 属性 相关 。 

7.2.1 节 中 将 介绍 属性 上 的 简单 型 约束 : 属性 值 不 可 是 NULL 的 约束 。7.2.2 季 中 给 出 类 型 (1) 
的 基本 形式 ， 基 于 属性 的 CHECK 约 束 (attribute-based CHECK constraint )。 第 二 种 类 
型 一 一 基于 元 组 的 约束 将 在 7.2.3 中 给 出 。 

更 一 般 性 的 约束 将 在 7.4 节 中 见 到 。 这 种 约束 将 用 于 约束 整个 关系 或 多 个 关系 上 的 改变 ， 
以 及 在 单个 属性 或 元 组 值 上 的 约束 。 
7.2.1 非 空 值 约束 

与 属性 相连 的 简单 约束 是 NOT NULL， 其 作用 是 不 允许 该 属性 取 空 值 。 约 束 声 明 方法 是 在 
CREATE TABLE 语句 的 属性 声明 之 后 用 保留 字 NOT NULL 声 明 。 l 

7.7 假定 关系 Studqio 中 需要 presc# 不 取 空 值 ， 可 以 将 图 7-3 中 的 第 (4) 行 改 为 : 


4) presC# INT REFERENCES MovieExec(cert#) NOT NULL 
这 个 假设 会 造成 几 种 结果 。 例 如 
。 对 Studio 关 系 插入 元 组 时 ， 不 能 只 给 出 名 字 和 地 址 ， 因 为 此 时 其 presc# 的 值 是 NULL。 
“图 7-3 中 第 (5) 行 的 置 空 值 原 则 此 处 不 能 用 。 因 为 该 原则 通知 系统 ， 当 外 键 违反 约束 时 
要 将 presc# 值 置 空 。 
口 
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7.2.2 基于 属性 的 cHECK 约 束 

更 复杂 的 约束 是 通过 在 属性 声明 之 后 附加 保留 字 CHECK 给 出 。CHECK 保 留 字 之 后 是 用 圆 括 
号 给 出 该 属性 应 满足 的 条 件 。 实 际 中 ， 基 于 属性 的 CHECK 约 束 是 值 上 的 简单 约束 。 如 合法 值 的 
排列 或 算术 不 等 式 。 可 是 ， 原 则 上 CHECK 条 件 可 以 是 任何 在 SQL 语句 的 WHERE 子 句 中 人 允许 的 描 
述 。 条 件 可 以 通过 表达 式 中 属性 名 字 引 用 被 约束 的 属性 。 但 是 ， 如 果 条 件 要 引用 其 他 关系 ， 或 
是 其 他 属性 ， 则 该 关系 必须 是 子 查询 的 FROM 子 句 中 出 现 的 关系 (即使 该 关系 是 被 检查 属性 所 
在 的 关系 )。 

基于 属性 的 CHECK 约 束 是 在 元 组 为 该 属性 获得 新 值 时 被 执行 。 新 值 可 能 是 由 修改 元 组 的 语 
句 给 出 ， 或 者 是 插 人 元 组 的 一 部 分 。 如 果 新 值 违 反 约 束 ， 则 该 更 新 被 拒绝 。 例 7.9 将 解释 ， 如 
果 数 据 库 更 新 并 不 改变 与 约束 相连 的 属性 值 ， 则 基于 属性 的 CHECK 检 查 将 不 被 执行 ， 因 为 这 样 
做 将 违反 约束 。 

例 7.8 设 证 书号 必须 至 少 有 6 位 数字 。 图 7-3 中 关系 


Studio(name, address, presC#) 


模式 定义 的 第 (4) 行 可 以 改 为 : 


4) presC# INT REFERENCES MovieExec(cert#) 
CHECK (presC# >= 100000) 


男 外 一 个 例子 ， 图 6-16 中 关系 

MovieStar (name, address, gender, birthdate) 
的 gender 属 性 的 数据 类 型 被 声明 为 CHAR (1) 也 就 是 说 ， 是 一 个 单字 符 。 可 是 ， 该 字符 的 
期 望 值 只 能 是 ”F” 和 ”M'" 。 于 是 图 6-16 中 第 4 行 改 为 : 


4) gender CHAR(1) CHECK (gender IN (’F’, °M’)), 
上 面 给 定 的 条 件 是 使 用 显示 的 两 个 值 ， 声 明 任 何 gender 的 值 必须 是 此 集合 中 的 值 。 ” 口 


CHECK 检 查 的 条 件 中 允许 使 用 本 关系 中 的 其 他 属性 或 元 组 ， 其 至 可 以 使 用 其 他 关系 。 但 是 
如 要 这 样 做 ， 就 必须 在 条 件 中 给 出 子 查询 。 如 已 经 提 到 的 ， 条件 可 以 是 select-from-where 型 
SQL 语 句 中 wHERE 子 句 里 的 条 件 。 应 该 明白 约束 检查 仅仅 只 与 要 检查 的 属性 相关 ， 与 约束 中 提 
到 的 每 一 个 关系 或 属性 无 关 。 这 样 ， 如 果 某 些 与 被 检查 不 同 的 成 分 被 改变 时 ， 复 杂 的 条 件 可 能 
取 “ 假 ” 值 。 

例 7.9 用 基于 属性 的 cHECK 约 束 模拟 引用 完整 性 约束 。 下 面 是 模拟 


Studio(name, address, presC#) 
关系 中 presc# 值 必须 在 关系 


MovieExec (name, address, cert#, netWorth) 


的 cert# 之 中 出 现 的 约束 。 假 定 图 7-3 第 (4 ) 行 改 为 : 





4) presC# INT CHECK 
(presC# IN (SELECT cert# FROM MovieExec)) 


该 语句 是 一 个 合法 的 基于 属性 的 CHECK 约 束 ， 它 的 作用 如 下 : 
“如 果 对 studio 插入 新 元 组 ， 新 元 组 的 presCc# 值 不 是 任何 电影 制 片 人 的 证 书号 时 ， 揪 人 


We 
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被 拒绝 。 

* 如 果 更 改 Studio 元 组 的 presc# 值 ， 新 值 不 是 电影 制 片 人 的 cert# 时 ， 更 改 被 拒绝 。 

"可 是 ,如 果 改 变 MovieExec， 删 除 制 片 厂 经 理 元 组 ,此 变化 对 上 面 的 CHECK 约 束 不 可 见 。 

于 是 ， 删 除 动作 被 执行 。 即 使 这 样 一 来 违反 了 presc# 上 的 CHECK 约 束 。 

在 7.4.1 节 中 ,将 见 到 如 何 使 用 更 强 有 力 的 约束 形式 来 正确 表达 上 述 条 件 。 口 
7.2.3 基于 元 组 的 CHECK 约 束 

为 了 对 单个 表 R 的 元 组 声明 约束 ， 在 用 CREATE TABLE 语句 定义 表 时 ， 可 以 在 属性 列表 、 
键 或 外 键 声明 上 附加 CHECK 保 留 字 ， 其 约束 条 件 用 括号 括 起 。 括 号 中 的 条 件 可 以 是 WHERE 子 句 
中 出 现 的 任何 表达 式 。 表 达 式 被 解释 为 表 R 元 组 上 的 条 件 ，R 的 属性 可 以 出 现在 该 表达 式 中 。 
这 一 点 与 基于 属性 的 cHECK 约 束 不 同 ， 在 基于 属性 的 cHECK 约 束 中 ， 子 查询 中 的 条 件 可 以 引用 
其 他 关系 或 同一 关系 R 的 其 他 元 组 。 

每 次 向 R 插 人 元 组 时 ， 以 及 当 有 的 元 组 被 修改 时 ， 都 要 基于 元 组 的 CHECK 约 束 检查 这 个 新 
元 组 或 被 更 新 的 元 组 。 如 果 该 元 组 的 约束 条 件 计 算 结 果 是 假 ， 则 表明 违反 约束 ， 插 和 或 更 新 被 
拒绝 。 可 是 ， 如 果 条 件 的 子 查询 中 引用 革 个 关系 (即使 是 关系 R 本 身 )， 而 那个 关系 的 改变 将 使 
关系 尺 的 某 些 元 组 对 条 件 的 计算 结果 是 假 ，cHECK 却 不 能 阻止 这 样 的 事情 发 生 。 也 就 是 说 ， 类 
似 基 于 属性 的 cHECK 约 束 ， 基 于 元 组 的 CHECK 约 束 对 其 他 关系 不 可 见 。 

虽然 基于 元 组 的 检查 允许 一 些 非常 复杂 的 条 件 , 但 最 好 还 是 将 复杂 检查 留 给 SQL 的 “断言 ” 
完成 。 关 于 “断言 ”将 在 7.4.1 中 讨论 。 正 如 上 面 已 讨论 的 那样 ， 把 复杂 检查 留 给 “断言 ”的 理 
由 是 ， 在 某 些 条 件 中 ， 基 于 元 组 的 约束 可 以 在 不 知晓 的 情况 下 违反 。 可 是 ， 如 果 基 于 元 组 的 检 
查 只 涉及 对 元 组 的 属性 检查 ， 而 不 涉及 子 查询 ， 那 么 这 类 约束 总 可 以 保持 。 下 面 是 涉及 元 组 中 
多 个 属性 的 基于 元 组 的 CHECK 约 束 的 简单 例子 。 

例 7.10 ”对 于 例 6.39 的 Moviestar 表 模式 声明 ， 图 7-5 重 复 了 那个 CREATE TABLE 语句 ， 
男 外 又 增加 了 主键 约束 和 男 一 个 约束 声明 ， 这 些 约束 是 将 要 检查 的 “一 致 性 条 件 ” 之 一 。 约 束 
的 意思 是 ， 如 果 影 星 的 性 别 是 男性 ， 则 他 的 名 字 不 能 以 ' Ms . ”开头 。 


1) CREATE TABLE MovieStar ( 
2) name CHAR(30) PRIMARY KEY, 
3) address VARCHAR(255) , 


4) gender CHAR(1), 
5) birthdate DATE, 
6) CHECK (gender = ’F’ OR name NOT LIKE ’Ms.%’) 





图 7-5 Moviestazr 的 约束 声明 


ER (2) 行 ，name 被 声明 为 关系 的 主键 。 第 〈6 ) 行 声明 约束 。 对 于 每 一 个 女 影 星 和 名 字 开 
头 不 是 ”Ms . ”的 影星 元 组 ， 该 约束 取 真 值 。 使 条 件 不 为 真 的 元 组 值 名 字 开 头 是 :Ms .， 的 男 
影星 。 这 些 正 是 应 该 从 MovieStar 中 去 除 的 元 组 。 口 










正确 地 书写 约束 

很 多 约束 与 例 7.10 相 同 ， 都 是 为 了 使 元 组 满足 两 个 或 更 多 个 条 件 。 紧 跟 CHECK 之 后 的 
表达 式 是 每 个 条 件 否 定 的 OR 运算 ,或 肯定 的 OR 运算 。 该 变换 是 “摩根 定律 ” 
(DeMorgan’s laws) 之 一 : AND 项 的 否定 是 各 项 否定 的 OR。 因 此 ， 例 7.10 中 第 一 个 条 件 是 
声明 影星 是 男性 , 使 用 gender=”F” 作 为 合适 的 否定 (虽然 gender<>，”M” 应 该 是 更 
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一 般 的 表述 否定 的 方法 )。 第 二 个 条 件 是 说 ，name 开 头 必须 是 : Ms.’, 使 用 NOT LIKE 





比较 运算 。 该 比较 运算 本 身 包含 否定 成 分 ， 在 SQL 中 可 以 写成 name LIKE’ Ms.%’, 


7.2.4 习题 
习题 7.2.1 对 关系 


Movie(title, year, length, inColor, studioName, producerC#) 


写 出 如 下 关于 属性 的 约束 。 
* a) 年 份 不 能 是 1895 年 以 前 。 
b) 长 度 不 能 少 于 60 也 不 能 多 于 250。 
* c) 制 片 厂 的 名 字 只 能 是 Disney、FOX、MGM 或 者 Paramount。 


约束 检查 的 局 限 : 缺陷 或 特征 ? 

人 们 可 能 奇怪 ， 如 果 基 于 属性 和 基于 元 组 的 约束 引用 了 其 他 关系 或 同一 个 关系 的 其 
他 元 组 时 ， 为 什么 能 允许 它 被 违反 。 理 由 是 ， 这 样 的 约束 实现 可 以 比 更 通用 的 约束 (如 
断言 ，7.4.1 节 将 讨论 ) 的 实现 更 有 效 。 对 于 基于 属性 或 基于 元 组 的 约束 ,仅仅 需要 计算 
被 约束 关系 新 插入 或 修改 的 元 组 的 约束 。 而 另 一 方面 ， 断 言 则 必须 在 其 所 提 及 的 任 一 个 
关系 每 次 被 改变 时 都 要 做 计算 。 仔 细 的 数据 岸 设计 者 。 仅 仅 当 这 类 约束 不 可 能 被 违反 时 
才 使 用 基于 属性 和 基于 元 组 的 约束 。 否 则 ， 将 使 用 其 他 机 制 ， 如 断言 或 触发 器 等 。 


习题 7.2.2 对 习题 5.2.1 中 的 关系 模式 例子 写 如 下 关于 属性 的 约束 。 习 题 5.2.1 的 例子 模式 是 ; 
Product (maker, model, type) 
PC(model, speed, ram, hd, rd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 
a) 手提 电脑 的 速度 至 少 是 800。 
b) 活动 磁盘 要 么 是 32x 或 40x 的 CD， 要 么 是 12x 或 16x 的 DVD。 
c) 打印 机 的 类 型 只 能 是 激光 (laser )、 喷 时 (ink-jet) 和 点 阵 (bubble )。 
d) 产品 类 型 只 能 是 PC、 手 提 电 脑 和 打印 机 。 
! e) 产品 模型 也 必须 是 PC、 手 提 电 脑 和 打印 机 。 
习题 7.2.3 ” 例 7.13 对 图 7-7 的 基于 元 组 的 CHECK 约 束 只 完成 了 图 7-6 断 言 的 部 分 工作 。 写 出 
全 部 关于 MovieExec 的 CHECK 约 束 。 | 
习题 7.2.4 ”对 给 出 的 电影 例子 ， 写 出 如 下 基于 元 组 的 CHECK 约 束 。 


Movie(title, year, length, inColor, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 

MovieStar(name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 

Studio(name, address, presC#) 


如 果 约 束 涉及 两 个 关系 ， 则 应 在 两 个 关系 中 都 给 出 约束 声明 。 这 样 ， 无 论 哪个 关系 被 改 
变 ， 约 束 都 将 对 插入 和 更 新 做 检查 。 由 于 删除 操作 不 可 能 维护 基于 元 组 的 约束 ， 所 以 暂 
不 考虑 。 
* a) 如 果 是 1939 年 以 前 制作 的 电影 ， 则 该 电影 不 能 是 彩色 影片 。 

b) 电影 明星 不 可 能 出 现在 制作 于 其 出 生日 期 之 前 的 影片 之 中 。 





















Ww 


! c) 两 个 制 片 三 不 能 有 相同 的 地 址 。 

*! d) 在 MovieStar 中 出 现 的 名 字 不 能 也 出 现在 MovieExec 中 。 

! e) Studio 中 出 现 的 制 片 厂 名 字 至 少 要 在 Movie 的 一 个 元 组 中 出 现 。 

! 了 如 果 某 人 既是 某 部 电影 制 片 人 又 是 制 片 厂 经 理 ， 那 么 必须 由 这 家 制 片 厂 来 制作 这 部 

电影 。 

习题 7.2.5 关于 “PC” 模 式 写 出 如 下 基于 元 组 的 CHECK 约 束 。 
a) 处 理 器 速度 低 于 1200 的 PC 价格 不 能 超过 $1500。 
b) 显示 器 小 于 15 英 寸 的 手提 电脑 要 么 硬盘 至 少 有 20G， 要 么 售 价 低 于 $2000。 

习题 7.2.6 关于 习题 5.2.4 中 战 船 模式 写 出 如 下 基于 元 组 的 CHECK 约 束 。 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles(name, date) 

Outcomes(ship, battle, result) 


a) 没有 哪 一 类 战 船 具 有 大 于 16 英 寸 口径 的 火炮 。 
b) 如 果 某 类 船只 的 火炮 多 于 9 门 ， 则 这 些 火炮 的 口径 不 能 大 于 14 英 寸 。 
! o) 船 没 下 水 前 不 能 参战 。 


7.3 修改 约束 


任何 时 候 都 可 以 添加 、 修 改 、 删 除 约束 。 表 示 这 种 修改 的 方式 依赖 于 该 约束 是 涉及 属性 、 
REE ( 如 同 7.4.1 节 ) 数据 库 模 式 。 
7.3.1 给 约束 命名 
”为 了 修改 或 删除 一 个 已 经 存在 的 约束 ， 约束 必须 有 名 字 。 为 了 命名 ， 在 约束 前 加 保留 字 
CONSTRAINT 和 该 约束 的 名 字 。 

例 7.11 重 写 图 7-1 的 第 2 行 ， 为 主键 约束 命名 ， 如 : 


2) name CHAR(30) CONSTRAINT NameIsKey PRIMARY KEY, 


同样 ， 对 例 7.8 中 的 基于 元 组 CHECK 约 束 命名 如 下 : 


4) gender CHAR(1) CONSTRAINT NoAndro 
CHECK (gender IN QF’, °M’)), 


最 后 ， 如 下 约束 : 


6) CONSTRAINT RightTitle 
CHECK (gender = ’F’ OR name NOT LIKE ’Ms.%’); 


是 为 图 7-5 中 第 6 行 基 于 元 组 CHECK 约 束 命 名 重 写 的 语句 。 口 


7.3.2 修改 表 上 约束 

7.1.6 节 中 提 到 ， 通 过 SET CONSTRAINT 语 句 ， 可 以 将 约束 检查 从 立即 执行 转换 到 延期 执 
行 ， 或 者 反 过 来 ， 从 延期 执行 转 为 立即 执行 。 对 约束 的 其 他 改变 使 用 ALTER TABLE 语 句 。 
6.6.3 节 中 已 讨论 过 某 些 ALTER TABLE 语 句 的 应 用 ， 那 里 用 它 来 添加 和 删除 属性 。 

这 些 语句 也 能 用 于 修改 约束 。ALTER TABLE 用 于 基于 属性 和 基于 元 组 的 检查 。 用 保留 字 
DROP 和 要 删除 的 约束 的 名 字 可 以 删除 约束 。 也 可 以 用 保留 字 ApD， 后 跟 要 添加 的 约束 实现 约 
束 添 加 。 注 意 ， 除非 要 添加 的 约束 满足 表 的 当前 实例 ， 否则 不 能 对 表 添 加 约束 。 
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为 你 的 约束 命名 

记 住 ， 最 好 为 你 的 每 个 约束 都 起 个 名 字 ， 即 使 你 认为 不 会 引用 到 它 也 要 如 此 。 如 果 
约束 创建 时 没有 命名 ， 再 想 为 它 起 名 就 晚 了 了 。 人 但 是 ， 当 你 必须 要 改变 一 个 没有 名 字 的 约 
束 时 ， 你 会 发 现 DBMS 可 能 已 经 为 你 提供 了 查找 此 约束 的 一 种 方式 ， 它 给 出 了 一 个 列 有 你 
所 有 约束 的 列表 ， 并 为 其 中 未 命名 的 约束 给 出 了 DBMS 的 内 部 名 称 ， 你 可 以 用 此 名 称 来 引 
用 约束 。 











例 7.12 对 例 7.11 中 关系 Moviescar 添 加 和 删除 约束 。 下 面 是 三 个 删除 的 语句 序列 ， 


ALTER TABLE MovieStar DROP CONSTRAINT NameIsKey; 
ALTER TABLE MovieStar DROP CONSTRAINT NoAndro; 
ALTER TABLE MovieStar DROP CONSTRAINT RightTitle; 


在 删除 了 这 些 约束 后 ， 如 果 想 要 恢复 这 些 约束 ， 可 以 通过 对 MovieStar 关 系 修改 模式 ， 
添加 相同 的 约束 。 例 如 : 


ALTER TABLE MovieStar ADD CONSTRAINT NameIsKey 
PRIMARY KEY (name); 

ALTER TABLE MovieStar ADD CONSTRAINT NoAndro 
CHECK (gender IN CF’, *M’)); 

ALTER TABLE MovieStar ADD CONSTRAINT RightTitle 
CHECK (gender = ’F’ OR name NOT LIKE ’Ms.%’); 


这 些 约 束 都 是 基于 元 组 而 不 是 基于 属性 的 检查 ， 不 能 将 其 恢复 到 基于 属性 的 约束 。 
重新 引入 的 约束 的 名 字 可 以 任意 给 定 。 可 是 ， 不 能 信赖 SQL 能 记 住 已 删除 的 约束 ， 因 此 ， 
当 添 加 以 前 的 约束 时 ,需要 再 次 写 出 该 约束 ,不 能 仅仅 引用 它 以 前 的 名 字 。 口 


7.3.3 习题 
习题 7.3.1 按照 如 下 要 求 修改 电影 例子 的 关系 模式 : 


Movie(title, year, length, inColor, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 

MovieStar(name, address, gender, birthdate) 

MovieExec(name, address, cert#, netWorth) 

Studio(name, address, presC#) 


* 8a) 将 title 和 Year 作 为 Movie 的 键 。 
b) 在 MovieExec 中 每 个 影片 制 片 人 都 必须 出 现 的 引用 完整 性 约束 。 
c) 影片 的 长 度 不 能 少 于 60， 也 不 能 多 于 250。 335 
*! d 同一 个 名 字 不 能 在 影片 中 的 影星 和 影片 制 片 人 中 同时 出 现 (该 约束 在 删除 中 不 必 维 
护 )。 
! eo 两 个 制 片 厂 不 能 有 同一 个 地 址 。 
习题 7.3.2 修改 战舰 数据 库 模 式 ， 使 其 有 如 下 基于 元 组 的 CHECK 约 束 : 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles(name, date) 

Outcomes(ship, battle, result) 


w 
w 
A 


a) 关系 Classes 中 class 和 country 形成 键 。 
b) 在 Battles 中 出 现 的 每 艘 船 也 在 ships 中 出 现 的 引用 完整 约束 。 


U 
w 
(ea 


地 
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c) 在 Outcomes 中 出 现 的 每 艘 船 也 在 Ships 中 出 现 的 引用 完整 约束 。 
d) 没有 船 装备 有 多 于 14 门 火炮 。 
! e) 不 允许 船 下 水 前 就 参战 。 


7.4 模式 层 的 约束 和 触发 器 


SQL 中 主动 元 素 的 最 强 有 力 形式 与 特定 的 元 组 或 元 组 的 组 成 并 不 相关 。 这 些 元 素 称 做 “ 触 
发 ”和 “断言 ”， 是 数据 库 模式 的 一 部 分 ， 等 同 于 关系 和 视图 本 身 。 

“断言 是 SQL 逻辑 表达 式 ， 并 且 总 是 为 真 。 

“ 触发 是 一 系列 与 某 个 事件 相关 的 动作 ， 例 如 向 关系 揪 人 元 组 。 和 触发 总 是 当 这 些 事件 发 生 

时 被 执行 。 

由 于 断言 只 要 求 程序 员 声 明 什么 是 真 ， 所 以 断言 很 便于 程序 员 使 用 。 但 是 ， 触 发 是 DBMS 
的 特征 ， 特 别提 供 作 通用 目的 主动 元 素 。 理 由 是 ， 断 言 的 有 效 实现 非常 困难 。DBMS 必 须 推断 
数据 库 的 任何 更 新 是 否 影响 断言 的 真 假 。 另 一 方面 ， 触 发 则 确切 地 告知 DBMS 需 要 在 何 时 处 理 
这 些 影响 。 
7.4.1 断言 

SQL 标准 提出 了 一 种 允许 强制 任何 条 件 的 简单 的 断言 形式 〈 也 称 做 “通用 约束 ”) (WHERE 
之 后 的 表达 式 )。 断 言 与 其 他 模式 成 分 一 样 ， 用 CREaATE 语 名 声明。 断言 的 形式 是 ， 

1. 保留 字 CREATE ASSERTION; 

2. 断言 名 ; 

3. 保留 字 CHECK; 

4. 圆 括 弧 括 起 的 条 件 。 

也 就 是 说 ,语句 的 形式 是 . 


CREATE ASSERTION < 崭 言 名 > CHECK (< 条 件 >) 


当 断 言 建立 时 ， 断 言 的 条 件 必 须 是 真 ， 并 且 要 永远 保持 是 真 。 任 何 引 | 起 断言 条 件 为 假 的 数 
据 库 更 新 都 被 拒绝 。 已 经 介绍 过 的 其 他 类 型 CHECK 约 束 ， 如 果 涉 及 子 查询 ， 可 以 在 某 些 条 件 下 
避免 操作 被 拒绝 。 

基于 元 组 的 CHECK 约 束 和 断言 约束 有 差别 。 基于 元 组 的 检查 声明 能 引用 关系 的 属性 , 例如 ， 
在 图 7-5 的 第 6 行 中 ,使 用 属性 gender 和 name 而 不 必 指 明 其 来 自 何 处 。 因 为 表 是 在 CREATE 
TABLE 请 句 中 声明 ， 所 以 它们 可 以 引用 并 插入 或 更 新 表 Movies tar 元 组 的 属性 值 。 

断言 条 件 没 有 如 此 特权 。 断言 条 件 中 引用 的 任何 属性 都 必须 要 介绍 ， 特 别 是 在 select-from- 
where 表 达 式 中 要 提 及 对 应 的 关系 。 由 于 条 件 必须 是 勾 辑 值 ， 因 此 ， 必须 用 某 种 方式 聚集 条 件 的 
结果 ， 以 获得 单个 的 真 / 假 值 选择 。 例 如 ， 可 能 有 一 些 条 件 表达 式 的 结果 产生 一 个 关系 ， 此 时 用 
NOT EXISTS。 也 就 是 说 ,约束 该 关系 永远 是 空 。 另 外 ， 也 可 以 在 关系 的 一 个 列 上 使 用 sum 
类 聚集 操作 ， 将 其 结果 与 一 常数 比较 。 例 如 ， 在 这 种 方法 中 ， 要 求 SUM 值 总 是 小 于 某 个 限定 值 。 

例 7.13 假如 希望 其 净 资 产值 少 于 $10 000 000 的 人 不 能 成 为 制 片 厂 经 理 。 可 以 写 一 个 断言 ， 
声明 经 理 净 资产 值 少 于 $10 000 000 的 电影 制 片 厂 集合 是 空 。 该 断言 涉及 两 个 关系 : 


MovieExec(name, address, cert#, netWorth) 
Studio(name, address, presC#) 


断言 描述 如 图 7-6 所 示 。 





RAR 


CREATE ASSERTION RichPres CHECK 
(NOT EXISTS 
(SELECT + 


FROM Studio, MovieExec 
WHERE presC# = cert# AND netWorth < 10000000 





图 7-6 保证 制 片 三 经 理 拥 有 相当 规模 资产 的 断言 


该 约束 涉及 两 个 关系 ,但 是 使 用 断言 的 价值 不 大 ， 因为 可 以 在 两 个 关系 上 使 用 基于 元 
组 的 CHECK 约 束 ， 而 不 使 用 两 个 关系 上 的 单个 断言 。 例 如 ， 在 例 7.3 的 cREATE TABLE 语 句 上 
如 图 7-7 所 示 对 Studio 加 约束 。 

可 是 注意 ， 图 7-7 中 的 约束 仅仅 只 在 对 studio 更 新 时 才 做 检查 。 而 不 能 查找 到 关系 
MovieExec 中 制 片 厂 经 理 净 资 产值 少 于 $10 000 000 的 情况 。 为 了 能 获取 断言 的 所 有 作用 ， 必 
须 在 MovieExec 表 上 加 另 一 个 约束 ， 声 明 如 果 电 影 制 片 人 是 制 片 厂 的 经 理 ， 那 么 其 净 资 产值 
至 少 要 有 $10 000 000。 口 

CREATE TABLE Studio ( 
name CHAR(30) PRIMARY KEY, ‘ 
address VARCHAR(255), 
presC# INT REFERENCES MovieExec(cert#) ， 
CHECK (presC# NOT IN 


(SELECT cert# FROM MovieExec 
WHERE netWorth < 10000000) 





图 7-7 _ studio 上 与 断言 约束 的 镜像 


约束 的 比较 
下 面 的 表格 列 出 了 基于 属性 的 检查 约束 、 基 于 元 组 的 检查 约束 和 断言 之 间 的 主要 区 别 。 


约束 类 型 声明 的 位 动作 的 时 间 

基于 属性 的 对 关系 插入 元 组 A AAR 
CHECK 或 属性 修改 | 不 外 

基于 元 组 的 | ， re STE 


数据 库 模 式 元 率 对 人 位 提 及 的 关 和 ， 





例 7.14 另 一 个 断言 的 例子 。 涉 及 关系 : 


Movie(title, year, length, inColor, studioName, producerC#) 


声明 对 一 个 给 定制 片 三， 其 所 有 电影 的 总 长 度 不 能 超过 10 000 分 钟 。 


CREATE ASSERTION SumLength CHECK (10000 >= ALL 
(SELECT SUM(length) FROM Movie GROUP BY studioName) 
); 
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由 于 该 约束 只 涉及 关系 Movie, 所 以 可 以 用 基于 元 组 的 CHECK 约 束 , 而 不 是 用 断言 来 表达 。 
也 就 是 说 ， 对 表 Movie 的 定义 增加 如 下 基于 元 组 的 CHECK 约 束 。 

CHECK (10000 >= ALL 

(SELECT SUM(length) FROM Movie GROUP BY studioName)); 

原则 上 ， 该 条 件 对 Movie 表 的 每 个 元 组 有 效 。 可 是 ， 它 并 不 显示 地 提 及 元 组 的 属性 ， 并 且 所 有 
工作 都 是 在 子 查询 中 完成 。 

另外 还 要 看 到 ， 如 果 作 为 基于 元 组 的 约束 实现 ， 对 关系 Movie 元 组 的 删除 并 不 检查 是 否 违 
反 约 束 。 该 例 中 ， 这 个 差别 并 不 带 来 危害 。 因 为 如 果 删 除 前 该 约束 满足 ， 那 么 ， 删 除 后 仍 满 足 
约束 要 求 。 可 是 ， 如 果 约 束 是 总 长 度 的 下 限 ， 而 不 是 上 限 ， 则 将 发 现 由 于 做 基于 元 组 的 检查 而 
不 是 断言 ， 导 致 违反 约束 。 口 

最 后 一 点 ， 断 言 可 以 被 删除 。 删 除 断 言 的 语句 与 删除 任何 数据 库 模 式 元 素 的 格式 一 样 ， 其 
语句 格式 是 : 


DROP ASSERTION < MEM > 


7.4.2 事件 -条 件 -动作 规则 

触发 器 ， 有 时 也 称 做 事件 -条 件 - 动 作 规则 (event-condition-action rule )， 或 者 ECA 规 则 。 
触发 器 与 前 面 已 介绍 的 几 种 约束 有 如 下 三 点 不 同 。 

1. 当 数据 库 程序 员 声 明 的 事件 发 生 时 , 触发 器 被 激活 。 事 件 可 以 是 对 某 个 特定 关系 的 插入 、 
删除 或 更 新 。 很 多 SQL 系统 中 允许 的 事件 是 事务 的 结束 (7.16 节 中 曾 对 事务 做 了 简洁 的 介绍 ， 
在 8.6 节 将 做 更 详细 的 声明 )。 

2. 当 触 发 器 被 事件 激活 时 ， 不 是 立即 执行 ， 而 是 首先 由 触发 器 测试 触发 条 件 。 如 果 条 件 不 
成 立 ， 则 响应 该 事件 的 触发 器 不 做 任何 事情 。 

3. 如 果 触 发 器 声明 的 条 件 满 足 ， 则 与 该 触发 器 相连 的 动作 (action ) 由 DBMS 执 行 。 动 作 
可 以 阻止 事件 发 生 ， 或 者 可 以 撤销 事件 〈 例如 删除 元 组 )。 事 实 上 ， 动 作 可 以 是 任何 数据 库 操 
作 序列 ， 甚 至 可 以 与 触发 事件 毫 无 关联 。 

7.4.3 SQL 中 的 触发 器 

SQL 触发 器 语句 在 事件 、 条 件 和 动作 等 部 分 都 为 用 户 提供 了 多 种 选择 。 主 要 特征 有 ; 

1. 动作 可 以 在 触发 事件 之 前 或 之 后 被 执行 。 

2. 在 被 触发 的 事件 中 ,动作 既 可 以 指向 被 插入 、 删 除 、 修 改元 组 的 新 值 ， 也 可 以 指向 其 旧 
值 。 

3. 更 新 事件 可 以 被 局 限 到 某 个 特定 的 属性 或 某 一 些 属性 。 

4. 条 件 由 wHEN 短 语 给 出 。 仅 仅 当 规则 被 触发 ， 并 且 触 发 事件 的 发 生 使 条 件 成 立时 ， 动 作 
才能 被 执行 。 

5. 程序 员 可 以 选择 动作 执行 的 声明 方式 : 

(a) 一 次 只 对 一 个 更 新 元 组 ， 或 者 

(b) 一 次 针对 在 数据 库 操作 中 被 改变 的 所 有 元 组 。 

例 7.15 编写 应 用 在 下 面 MovieExec 关 系 上 的 SQL 触 发 。 


MovieExec(name, address, cert#, netWorth) 


当 修改 networth 属 性 时 ， 激 活 触发 器 。 该 触发 器 的 作用 是 阻挠 降低 电影 出 品 人 净 资 产值 的 企 


BRR 


图 。 触 发 器 声明 如 图 7-8 所 示 。 

图 中 第 (1 ) 行 用 保留 字 CREATE TRIGGER 和 触发 器 名 引入 触发 声明 。 第 (2 ) 行 给 出 名 
为 MovieExec 关 系 的 networth 属 性 被 修改 的 触发 事件 。 第 (3 ) 行 到 第 (5 ) 行 建立 了 一 个 
在 触发 的 条 件 和 动作 部 分 声明 旧 元 组 (修改 前 的 元 组 ) 和 新 元 组 〈 修改 后 的 元 组 ) 的 方法 。 根 


据 第 (4) 行 和 第 (5 ) 行 的 声明 ， 新 旧 元 组 分 别 用 NewTuple 和 oldTuple 引 用 。 在 条 件 和 动 


作 中 ， 这 些 名 字 就 如 同 通 常 SQL 查 询 的 FROM 短 语 中 的 元 组 变量 声明 一 样 使 用 。 

图 中 第 (6) 行 ，FOR EACH ROW 短语 ， 表 达 了 该 触发 器 是 每 修改 一 个 元 组 执行 一 次 的 方 
式 。 如 果 没 有 该 短语 ， 或 它 被 缺 省 值 FOR EACH STATEMENT 替 换 ， 则 该 触发 器 将 是 每 执行 一 
名 SQL 语 句 执行 一 次 ， 而 不 管 这 个 语句 将 使 多 少 元 组 因 触 发 事件 被 改变 。 对 于 新 旧 元 组 没有 声 
明 别 名 ， 但 是 可 以 使 用 下 面 引 入 的 OLD TABLE 和 NEW TABLE. 

第 (7) 行 是 触发 的 条 件 。 声 明 动 作 的 执行 仅仅 当 新 的 净 资 产值 低 于 旧 的 净 资 产值 时 ， 触 
发 器 被 激活 ， 也 就 是 出 品 人 净 资 产值 收缩 的 时 候 被 激活 。 

第 (8) 行 到 第 (10 ) 行 是 动作 部 分 。 该 动作 是 通常 的 SQL 修改 语句 ， 其 作用 是 把 制 片 人 
的 净 产 值 重新 还 原 为 修改 前 的 值 。 注 意 ， 原 则 上 认为 每 个 MovieExec 的 元 组 都 要 被 修改 ， 但 
是 第 (10 ) 行 的 WHERE 短语 保证 了 该 动作 仅仅 只 对 那些 被 修改 的 元 组 ( 即 只 与 新 元 组 的 cert# 
值 相 等 的 元 组 ) 有 作用 。 口 


CREATE TRIGGER NetWorthTrigger 
2) AFTER UPDATE OF netWorth ON MovieExec 

3) REFERENCING 

4) OLD ROW AS OldTuple, 

5) NEW ROW AS NewTuple 

6) FOR EACH ROW 

7) WHEN (OldTuple.netWorth > NewTuple.netWorth) 
8) UPDATE MovieExec 

SET netWorth = 0ldTuple.netWorth 

WHERE cert# = NewTuple.cert#; 


图 7-8 SQL 触发 器 


当然 ， 例 7.15 仅 仅 只 解释 了 SQL 触发 器 的 一 部 分 特征 。 下 面 给 出 了 触发 器 具有 的 其 他 选项 ， 
以 及 如 何 表达 这 些 选 项 。 

“通过 保留 字 AFTER， 图 7-8 中 的 第 (2) 行 指出 该 条 规则 将 在 触发 事件 之 后 被 执行 。 
AFTER 可 以 用 BEFORE 替 换 ， 和 替换 后 ，WHEN 的 条 件 将 在 触发 事件 之 前 测试 ， 也 就 是 说 ， 
是 在 能 唤醒 触发 器 的 数据 库 更 新 之 前 执行 。 如 果 条 件 是 真 ， 热 行 触发 的 动作 。 然 后 ， 唤 
醒 触发 器 的 事件 被 执行 ， 而 不 问 其 条 件 是 否 为 真 。 

。 除 了 UPDATE 之 外 ， 其 他 可 能 的 触发 事件 是 INSERT 和 DELETE。 图 7-8 中 第 (2) 行 中 oF 
netWorth 短 语 是 UPDATE 的 选项 ， 它 指出 目前 的 事件 仅仅 是 OF 保留 字 后 列 出 的 属性 的 更 
新 。cF 短 语 在 INSERT 或 DELETE 中 不 可 使 用 ， 因 为 这 两 个 事件 都 是 作用 在 整个 元 组 上 。 

“WHEN 短语 是 可 选项 。 如 果 该 短语 缺 省 ， 则 不 问 触发 器 是 否 被 唤醒 ， 都 要 执行 动作 。 

* 虽然 在 例子 中 只 显示 了 单个 SQL 语句 作为 动作 ， 但 实际 上 ， 动 作 可 以 是 任意 多 个 这 样 的 
语句 组 成 ， 语 句 由 BEGIN……BEND 括 起 ， 并 且 语 名 之 间 用 分 号 分 隔 。 

“ 当 触 发 事件 是 修改 时 ， 则 有 旧 元 组 和 新 元 组 之 分 ， 它 们 分 别 是 修改 之 前 和 修改 之 后 的 元 
H. 用 OLD ROW AS 和 NEW ROW AS 短语 命名 这 些 元 组 ， 如 同 第 (4) 行 和 第 (5 ) 行 
中 见 到 的 。 相 反 ， 删 除 时 ，oLD ROW as 被 用 于 命名 要 被 删除 的 元 组 ， 而 NEW ROW AS 
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不 可 使 用 。 

。 如 果 和 忽略 第 (6 ) 行 的 FOR EACH ROW， 则 图 7-8 中 的 行 级 触发 (row-level trigger) 就 变 
成 了 语句 级 触发 《statement-level trigger )。 一 旦 有 合适 类 型 的 语句 被 执行 ， 语 句 级 触发 
就 被 执行 ， 而 不 问 它 实际 上 会 影响 多 少 元 组 一 一 零 个 、 一 个 或 多 个 。 例如， 如 果 用 SQL 
更 新 语句 更 新 整个 表 ， 语 句 级 的 修改 触发 将 只 执行 一 次 ， 而 元 组 级 触发 将 对 要 修改 的 元 
组 一 次 一 个 地 执行 。 在 语句 级 触发 中 ， 不 能 像 第 (4 ) 行 和 第 (5 ) 行 那样 ， 直 接 引用 旧 
元 组 和 新 元 组 。 可 是 ， 任 何 触发 器 一 一 无 论 是 元 组 级 或 语句 级 一 一 都 可 以 引用 旧 元 组 的 
关系 (删除 元 组 或 更 新 元 组 的 旧版 本 ) 和 新 元 组 的 关系 (插入 元 组 或 更 新 元 组 的 新 版 本 )， 
声明 方式 是 用 保留 字 oLD TABLE AS OldStuff#INEW TABLE AS NewStuffo 

例 7.16 假定 要 阻止 电影 制 片 人 的 平均 净 资 产值 降 到 $500 000。 在 对 关系 


MovieExec(name, address, cert#, netWorth) 


的 netWorth 列 做 插入 、 删 除 或 修改 时 可 能 会 违反 上 述 约束 。 

该 例 的 细微 之 处 是 ， 当 一 个 INSERT 或 UPDATE 语 句 导 致 在 很 多 MovieExec 关 系 元 组 变更 
期 间 ， 平 均 净 资产 值 可 能 暂时 低 于 $500 000， 然 后 ， 当 所 有 变更 结束 时 ， 其 净 资 产值 将 超过 
$500 000。 约 束 要 做 的 工作 是 ， 关 语句 执行 结束 后 ， 平 均 净 资 产值 仍然 是 低 于 $500 000， 则 该 
更 新 操作 被 拒绝 。 

对 于 关系 MovieExec 的 插入、 删除 和 更 新 这 三 个 事件 要 分 别 写 触发 。 图 7-9 给 出 了 更 新 事 
件 的 触发 。 播 人 和 删除 事件 的 触发 与 此 类 似 ， 比 较 而 言 更 简单 一 些 。 

CREATE TRIGGER AvgNetWorthTrigger 
AFTER UPDATE OF netWorth ON MovieExec 
REFERENCING 

- OLD TABLE AS OldStuff, 


NEW TABLE AS NewStuff 
FOR EACH STATEMENT 


WHEN (500000 > (SELECT AVG(netWorth) FROM MovieExec)) 
BEGIN 
DELETE FROM MovieExec 
WHERE (name, address, cert#, netWorth) IN NewStuff; 
INSERT INTO MovieExec 
(SELECT * FROM OldStuff); 





图 7-9 平均 净 资产 值 约束 

图 中 第 (3) 行 到 第 (5 ) 行 声明 Newstuff 和 oldSstufft 分 别 是 包含 新 元 组 和 旧 元 组 的 关 
系 名 ， 这 些 元 组 是 唤醒 上 述 触 发 操作 涉及 的 数据 库 元 组 。 由 于 一 个 数据 库 语句 可 以 更 新 关系 的 
很 多 元 组 ， 所以， 如果 执行 这 样 的 语句 ， 在 NewStuff 和 oldstuff 中 可 能 有 很 多 元 组 。 

如 果 是 更 新 操作 ， 则 Newstuff 和 0o1dstuff 中 分 别 是 被 更 新 元 组 的 新 版 本 和 旧版 本 。 如 
果 类 似 地 给 出 删除 触发 ， 则 删除 元 组 是 01dstuff， 也 不 需要 像 本 甬 发 那样 为 NEW TABLE 声 
明 NewStuff。 同 样 ， 在 类 似 的 插入 触发 中 ， 新 元 组 是 Newstuff， 也 不 需要 声明 oldstuff。 

第 (6) 行 声明 本 触发 的 执行 是 一 语句 一 次 ， 而 不 问 有 多 少 元 组 被 更 新 。 第 (7 ) 行 是 条 件 ， 
声明 如 果 修 改 之 后 平均 净 资产 值 少 于 $500 000， 则 条 件 成 立 。 

第 (8) 行 到 第 (13) 行 是 动作 ， 由 两 个 语句 组 成 。 当 WwHEN 短 语 中 的 条 件 成 立时 ， 即 新 的 
平均 值 太 低 时 ， 该 语句 将 恢复 关系 MovieExec 的 原 有 值 。 第 (9 ) 行 到 第 (10 ) 行 删除 所 有 新 
元 组 ， 即 元 组 的 被 修改 过 的 版 本 。 而 第 〈 11) 行 到 第 ( 12 ) 行 恢复 修改 之 前 的 值 。 口 
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7.4.4 替换 触发 器 ( Instead-Of Triggers ) 
替换 触发 器 虽然 不 符合 SQL-99 标 准 ， 但 是 非常 有 用 。 在 标准 化 讨论 中 曾 提 及 它 ， 一些 商 
用 系统 也 给 予 支持 。 它 允许 BEFORE 或 AFTER 由 INSTEAD OF 蔡 换 ， 其 意思 是 说 当 某 个 事件 唤 
醒 触 发 器 时 ， 完 成 触发 动作 以 替换 事件 本 身 。 

当 触 发 器 针对 存储 表 时 ， 作 用 很 小 。 但 是 ， 若 触发 器 是 用 于 视图 时 ， 起 到 的 作用 将 是 巨大 
的 。 原 因 是 ， 视 图 不 能 真正 地 被 更 新 ( 参见 6.7.4 )。 和 替换 触发 器 将 终止 更 新 视图 的 企图 ， 转 为 
执行 数据 库 设 计 者 认为 合适 的 动作 。 下 面 是 该 特征 的 一 个 典型 例子 。 

517.17 WHR (Paramount) 电影 公司 所 拥有 的 所 有 电影 的 视图 定义 如 下 : 


CREATE VIEW ParamountMovie AS 
SELECT title, year 
FROM Movie 
WHERE studioName = ’Paramount’; 

如 同 在 例 6.49 中 讨论 的 那样 ， 该 视图 可 以 更 新 。 但 是 ， 它 有 不 期 望 看 到 的 缺点 。 当 插入 
ParamountMovie 元 组 时 ， 系 统 不 能 保证 studioName 属 性 确实 是 Paramount， 于 是 ，Movie 
元 组 中 该 属性 值 是 NULL。 

如 果 在 视图 上 创建 替换 触发 器 ， 如 图 7-10 所 示 ， 则 可 以 获得 较 好 的 结果 。 这 人 么 长 的 触发 器 
不 奇怪 ， 其 中 第 (2) 行 中 的 保留 字 INSTEAD OF 使 得 要 插入 ParamountMovie 的 企图 永远 不 
会 发 生 。 





CREATE TRIGGER ParamountInsert 
INSTEAD OF INSERT ON ParamountMovie 
REFERENCING NEW ROW AS NewRow 


FOR EACH ROW 
INSERT INTO Movie(title, year, studioName) 
VALUES (NewRow. title, NewRow.year, ’Paramount’); 


图 7-10 使 用 触发 器 在 基本 表 上 揪 和 以 替换 对 视图 的 插 人 


第 (5 ) 行 和 第 (6 ) 行 是 答 换 企图 插 和 人 的 动作 。 这 里 有 一 个 对 Movie 的 插入 ， 并 给 出 了 三 
个 已 知 属性 。 属 性 title 和 year 是 来 自 试 图 插入 视图 的 元 组 ， 其 值 是 通过 元 组 变量 NewRow 引 
用 ,元 组 变量 在 第 (3 ) 行 中 声明 ， 表 示 要 插 和 人 的 元 组 。 属 性 StudioName 的 值 是 常数 
”Paramount'， 该 值 不 是 插入 元 组 的 内 容 。 另 外 ， 对 于 插入 的 电影 ， 由 于 其 是 来 自视 图 
ParamountMovie， 所 以 这 样 假定 制 片 厂 是 正确 的 。 口 


7.4.5 习题 
习题 7.4.1 为 MovieExec 的 删除 和 插入 事件 编写 类 似 于 图 7-9 的 触发 器 。 
习题 7.4.2 将 如 下 要 求 写成 触发 器 或 断言 。 在 每 种 情况 中 ， 如 果 不 满足 声明 的 约束 ， 则 拒 
绝 或 撤销 更 新 。 数 据 库 模式 是 习题 5.2.1 中 的 “PC” 例 子 。 


Product (maker, model, type) 

PC(model, speed, ram, hd, rd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 


a) 当 修 改 PC 的 价格 时 ， 检 查 不 存在 速度 与 其 相同 ， 但 价格 更 低 的 PC 机 。 
b) 没有 同时 也 制造 手提 电脑 的 PC 制造 商 。 

c) PC 制造 商 只 能 制造 处 理 器 速度 至 少 等 于 PC 的 手提 电脑 。 

d 插入 新 打印 机 时 ， 检 查 其 型 号 是 否 已 在 Product 中 存在 。 





* 


* 


* 
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e) 当 对 Laptop 关 系 做 任何 更 新 时 ， 要 求 每 个 制造 商 生 产 的 手提 电脑 的 平均 价格 至 少 


是 $2000。 
! 了 当 修 改 任何 PC 机 的 RAM 或 硬盘 时 ， 要 求 被 修改 的 PC 机 的 RAM 速 度 至 少 是 其 硬盘 速 
度 的 100 倍 。 


&) 如 果 手 提 电 脑 的 内 存 多 于 PC， 则 手提 电脑 的 价格 也 应 高 于 PC。 
h) 当 插 入 新 的 PC、 手 提 电 脑 或 打印 机 时 ， 要 确保 型 号 与 以 前 已 有 的 PC、 手 提 电 脑 或 





打印 机 型 号 不 重复 。 
! 了 如 果 Prodquct 关 系 中 有 某 个 型 号 和 它 的 类 型 ， 则 该 型 号 必须 也 出 现在 对 应 的 某 个 合 
适 的 关系 中 。 


习题 7.4.3 将 如 下 要 求 编写 为 断言 或 触发 器 。 在 每 种 情形 ， 如 果 不 满足 描述 的 约束 ， 则 拒 
绝 或 撤销 相应 的 更 新 。 数 据 库 模式 是 习题 5.2.4 中 的 战 船 例子 。 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles(name, date) | 

Outcomes(ship, battle, result) 

* a) 当 插入 一 新 类 到 classes 时 ， 也 插入 一 具有 该 类 名 字 和 NULL 下 水 日 期 的 舰 船 。 

b) 允许 插入 一 排水 量 超过 35 000 吨 的 新 类 ,但 是 要 改变 其 排水 量 为 35 000。 

c) 同一 类 型 的 舰 船 不 能 多 于 2 稻 。 

d) 同一 国家 不 能 同时 具有 战 船 和 战斗 巡洋舰 。 

! 6) 战斗 中 ,多 于 9 门 火 炮 的 战 船 不 能 被 少 于 9 门 火炮 的 战 船 击 沉 。 

! f) 当 插 入 Outcomes 元 组 时 ， 要 分 别 检查 ships 和 Batt1les 关 系 中 的 船 与 战役 元 组 。 
如 果 没 有 这 样 的 船 和 战役 存在 ， 则 在 插入 这 些 元 组 时 ， 其 中 不 确定 的 属性 要 赋 以 
NULL 值 。 

! g) 在 向 Ships 中 插入 或 更 新 Ships 的 class 属 性 时 ， 核 可 没有 国家 拥有 20 稻 以 上 的 战 船 。 

! h) 没有 船 可 以 比 与 类 同名 的 船只 早 下 水 。 

iD 对 一 个 类 ， 应 该 有 一 稻 船 具有 该 类 的 名 字 。 

j) 在 所 有 可 能 引起 违反 约束 的 环境 下 检查 ， 没 有 船 可 以 在 此 船 已 被 击 沉 之 后 又 出 现在 

战役 中 。 

! 习题 7.4.4 将 如 下 要 求 编写 为 断言 或 触发 器 。 在 每 种 情况 ， 如 果 不 满足 所 要 求 的 约束 ， 则 

拒绝 或 撤销 相应 的 更 新 。 所 有 要 求 是 在 有 关 电 影 例子 的 关系 上 提出 的 。 


Movie(title, year, length, inColor, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 

MovieStar(name, address, gender, birthdate) 

MovieExec(name, address, cert#, netWorth) 

Studio(name, address, presC#) 


你 可 以 假定 所 有 条 件 在 数据 库 被 改变 之 前 成 立 。 另 外 ， 当 更 新 破坏 条 件 时 ， 系 统 宁可 选择 
更 新 数据 库 ， 即 使 是 用 NULL 值 或 缺 省 值 插 入 元 组 ， 也 不 拒绝 更 新 。 
a) 保证 在 所 有 时 间 里 ， 任 何在 starsIn 中 出 现 的 影星 也 出 现在 Moviestar 中 。 
b) 保证 在 所 有 时 间 里 ， 每 个 电影 制 片 人 是 一 制 片 厂 经 理 、 电 影 制 片 人 或 二 者 兼 而 有 之 。 
c) 保证 每 个 电影 至 少 有 一 个 男 明星 和 一 个 女 明星 。 
d) 保证 在 任 一 年 中 ， 任 何 制 片 厂 制作 的 电影 数量 不 能 多 于 100。 
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e) 任何 年 代 的 电影 平均 长 度 不 超过 120。 
7.5 小 结 


。 键 约束 (key constraint); 在 关系 模式 中 可 以 用 UNIQUE 或 PRIMARY KEY 定 义 一 个 属性 
或 一 组 属性 为 键 。 

。 引 用 完整 性 (referential Integrity constraint): 在 关系 模式 中 ， 出 现在 某 个 属性 或 一 组 属 
性 中 的 值 ， 必 须 也 出 现在 用 REFERENCES 或 FOREIGN KEY 声 明 的 、 另 一 个 关系 的 某 些 
元 组 的 相应 属性 中 。 

“基于 属性 的 CHECK 约 束 (attribute-based check constraint); 关系 模式 属性 声明 的 后 面 加 
保留 字 cHECK 和 条 件 ， 可 以 实现 对 属性 值 的 约束 。 

。 基 于 元 组 的 CHECK 约 来 (tuple-based check constraint ): 通过 在 关系 本 身 的 声明 中 加 
CHECK 保 留 字 和 要 检查 的 条 件 ， 实 现 对 关系 元 组 的 约束 。 

e (FAH k ( modifying constraint )， 用 ALTER 语 名 可 以 添加 或 删除 基于 元 组 的 检查 约束 。 

-BÈ (assertion): 可 以 用 保留 字 cHECK 和 要 检查 的 条 件 声明 断言 ， 使 其 成 为 数据 库 模式 
的 元 素 。 该 条 件 可 以 涉及 一 个 或 多 个 数据 库 模 式 关 系 ， 既 可 以 用 聚集 将 整个 关系 作为 一 
个 整体 ， 也 可 以 只 对 单个 的 元 组 。 

“断言 执行 (invoking the check): 断言 涉及 的 关系 被 改变 时 ， 断 言 声明 的 条 件 被 检查 。 基 
于 属性 和 基于 元 组 的 检查 仅仅 当 属性 或 关系 被 插入 或 更 新 操作 改变 时 执行 。 因 此 ， 这 些 
约束 有 子 查询 时 将 被 侵犯 。 

“触发 器 (trigger): SQL 标准 包括 触发 器 声明 唤醒 该 触发 器 的 特定 事件 ( 例如 对 某 个 关系 
的 插入 、 删 除 或 更 新 )。 一 旦 触发 器 被 唤醒 ， 触 发 条 件 被 检查 。 如 果 条 件 是 真 ， 则 执行 指 
明 的 动作 序列 《SQL 语句 ， 如 查询 和 数据 库 更 新 )。 
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和 [4] 概 述 了 数据 库 系统 中 主动 元 素 的 所 有 方面 。[1] 讨 论 了 SQL-99 和 将 来 标准 中 最 新 的 主动 元 
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第 8 章 SQL 的 系统 特征 


本 章 讨论 如 何 把 SQL 应 用 到 一 个 完整 的 编程 环境 中 。8.1 节 讨论 SQL 如 何 嵌 入 到 普通 程序 设 
计 语 言 ， 比 如 C 语 言 ， 编 写 的 程序 中 。 一 个 关键 问题 是 在 SQL 关系 与 环境 变量 ， 或 者 “宿主 ” 
语言 之 间 如 何 交换 数据 。 

8.2 节 考虑 用 另 一 种 方式 将 SQL 和 被 称 为 持久 性 存储 模块 的 一 般 通 用 程序 结合 起 来 ， 这 些 模 
块 是 以 数据 库 模 式 形式 存储 的 代码 段 ， 由 用 户 以 命令 的 形式 执行 。8.3 节 涵盖 了 系统 的 附加 问 
题 ,例如 对 于 客户 -服务 器 计算 模型 的 支持 。 

第 三 种 编程 方式 叫 “调用 级 界面 " ， 以 常规 语言 编程 ， 用 函数 库 来 访问 数据 库 。 为 了 从 C 程 
序 中 做 调用 ，8.4 节 讨论 叫做 SQL/CLI 的 SQL 标准 库 。 接 着 ，8.5 节 将 接触 Java 的 JDBC ( 数据 库 
连接 )， 这 是 一 种 可 供 选 择 的 调用 级 界面 。 

然后 ，8.6 节 介绍 了 “事务 "， 它 是 工作 的 一 个 原子 单元 。 很 多 数据 库 应 用 程序 ， 如 银行 
系统 ， 要 求 数据 是 原子 性 的 ， 或 者 是 不 可 分 的 ， 甚 至 有 时 许多 并 发 操作 同时 进行 。SQL 提 
供 了 指定 事务 的 功能 ， 而 且 SQL 系 统 的 机 制 可 以 确认 所 调用 的 事务 真正 以 原子 方式 执行 。 
最 后 ，8.7 节 讨论 SQL 对 未 经 授权 访问 数据 如 何 控制 ， 以 及 SQL 系统 如 何 得 知 哪些 是 经 过 授 
权 的 访问 。 


8.1 编程 环境 下 的 SQL 


到 目前 为 止 ， 例 子 中 都 使 用 了 类 SQL 界面 。 也 就 是 说 ， 假 定 有 一 个 SQL 解释 器 来 接受 和 执 
行 各 种 已 经 学 习 过 的 SQL 查询 和 命令 。 虽 然 这 种 操作 模式 几乎 是 由 所 有 的 DBMS 作 为 一 个 选项 
提供 的 ， 但 实际 很 少 用 到 。 实 际 上 ， 大 多 数 SQL 语 句 是 一 个 更 大 程序 段 的 一 部 分 。 更 现实 的 观 
点 是 在 一 些 常规 的 宿主 语言 ， 如 C， 编 写 的 程序 中 有 SQL 语句 的 功能 。 这 一 市 将 描述 SQL 在 常 
规程 序 中 运作 的 一 种 方式 。 

包含 SQL 语句 的 典型 编程 系统 的 框架 如 图 8-1 所 示 。 图 中 ， 程 序 员 用 一 种 宿主 语言 编程 ， 
但 是 程序 中 用 到 了 一 些 特殊 的 并 不 是 宿主 语言 部 分 的 “ 艇 套 ”SQL 语 句 。 整 个 程序 被 发 送 给 
预 处 理 器 ， 预 处 理 器 将 谋 套 SQL 语 句 转 化 成 可 以 被 宿主 语言 理解 的 形式 ，SQL 的 表达 可 以 简化 
为 调用 函数 ， 此 函数 把 SQL 语句 当 作 字符 串 参 数 ， 并 且 执行 这 个 SQL 语句 。 


SQL 标准 语言 

符合 SQL 标准 的 实现 要 求 支持 以 下 七 种 宿主 语言 中 的 至 少 一 种 : ADA, C, Cobol, 
Fortran, M (也 叫 Mumps )，Pascal， 和 PL/I。 计 算 机 系 的 学 生 应 该 熟悉 这 些 语言 ，M 
(或 者 叫 Mumps ) 可 能 除外 ， 因 为 它 主 要 应 用 于 医疗 业 。 本 书 例 子 中 用 的 是 C 语 言 。 


经 过 预 处 理 的 宿主 语言 程序 随后 以 通常 的 方式 编译 。 一 般 情况 下 DBMS 销 售 商 提供 了 支持 
必要 的 函数 定义 库 。 这 样 ， 实 现 SQL 的 琐 数 被 执行 ,并且 整个 程序 像 一 个 整体 一 样 运作 。 另 外 ， 
图 8-1 中 也 显示 这 样 一 种 可 能 性 : 程序 员 直 接 用 宿主 语言 写 程序 ， 只 是 在 必要 时 使 用 这 些 函 数 
调用 。 这 种 方式 通常 称 为 调用 级 界面 或 者 CLI， 它 将 在 8.4 节 介绍 。 
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8.1.1 阻抗 不 匹配 问题 及 

连接 SQL 语句 和 那些 常规 的 编程 语言 的 基 有 请 
本 问题 就 是 阻抗 不 匹配 ， 即 SQL 的 数据 模式 与 做 套 SQL 
其 他 语言 的 模式 差别 甚大 。 众 所 周知 ，SQL 的 
核心 使 用 的 是 关系 数据 模型 。 然 而 ，C 和 其 他 
普通 的 编程 语言 使 用 的 数据 模型 有 整 型 、 实 型 、 
算术 型 、 字 符 型 、 指 针 、 记 录 、 数 组 等 等 。 集 宿主 语言 
合 在 C 或 者 其 他 语言 中 不 能 直接 表示 ， 相 对 地 ， Pme 





SQL 不 使 用 指针 、 循 环 和 转移 ， 或 者 其 他 普通 
编程 语言 的 结构 体 。 因 此 , 在 SQL 和 别 的 语言 
之 间 不 能 直接 转移 数据 ， 必 须 设计 一 种 机 制 允 
许 程序 的 开发 既 可 以 使 用 SQL， 也 可 以 使 用 一 上 下 

种 其 他 的 语言。 | 图 8-1 AEMBÆESQLE IHU 

第 一 个 可 能 的 猜想 是 只 用 一 种 语言 看 来 更 
可 取 ， 要 人 么 使 用 SQL 完成 所 有 的 计算 ， 要 么 不 用 SQL， 只 用 常规 语言 完成 所 有 的 计算 。 然 而 ， 
当 涉 及 到 数据 库 操 作 时 ， 忽 略 SQL 的 想法 很 快 被 放弃 了 。SQL 系 统 很 大 程度 上 帮助 了 程序 员 编 
写 数据 库 操 作 ， 使 这 些 操作 可 以 有 效 地 执行 ， 并 且 操 作 的 表示 级 别 很 高 。SQL 降 低 了 程序 员 对 
于 数据 在 存储 器 中 如 何 组 织 或 者 如 何 利用 这 个 存储 结构 在 数据 库 中 高 效 运行 的 理解 需求 。 

另 一 方面 ， 有 许多 重要 的 事情 SQL 根本 不 能 完成 。 例 如 ， 不 能 用 SQL 查询 来 计算 数 m 的 阶 
Kpn! =n x (n-1) x .… x 2 x1]， 这 个 问题 用 C 或 者 类 似 的 语言 * 就 可 以 很 轻松 地 完成 。 另 外 一 个 
例子 是 ，SQL 不 能 把 输出 直接 格式 化 到 图 表 等 常规 的 格式 中 。 所 以 ， 真 正 的 数据 库 编程 既 要 有 
SQL， 也 要 有 常规 语言 。 后 者 常常 被 叫做 宿主 语言 (host language )。 

8.12 SQL/ 宿主 语言 接口 

数据 库 只 能 由 SQL 语句 访问 ， 在 数据 库 和 宿主 语言 程序 之 间 的 信息 转移 是 通过 宿主 语言 恋 
量 实 现 ， 这 种 变量 可 以 被 SQL 语句 读 写 。 在 SQL 语句 中 引用 这 些 共享 变量 (shared variable ) 时 ， 
变量 前 面 要 加 上 冒号 作为 前 级 ， 而 在 宿主 语言 中 这 些 变量 并 不 需要 冒号 。 

在 宿主 语言 中 使 用 SQL 语句 时 ，SQL 代 码 语句 必须 紧 跟 在 关键 字 BxEc soL 之 后 。 系 统 将 
预 处 理 这 些 语句 ， 用 宿主 语言 中 合适 的 函数 调用 来 代替 这 些 语句 ， 并 且 充 分 利用 与 SQL 相关 的 
函数 库 。 

在 SQL 标 准 中 ，sQLsTATE 这 个 特殊 变量 用 于 连接 宿主 语言 程序 与 5QL 执 行 系统 。 
SQLSTATBE 是 5 个 字符 的 数组 类 型 。 每 次 调用 SQL 库 函 数 ， 向 SQLSTATE 变 量 中 存放 一 个 代 
码 ， 该 代码 表示 调用 过 程 中 出 现 的 问题 。SQL 标 准 同时 指定 了 大 量 的 5 个 字符 的 代码 和 它们 
的 意义 。 

例如 , ”00000”( 五 个 零 ) 表示 没有 产生 任何 错误 , ”02000， 表 示 缺 少 作 为 SQL 查询 结果 
组 成 部 分 的 一 个 元 组 。 后 面 这 个 代码 非常 重要 ， 因 为 它 允 许 在 宿主 语言 中 创建 的 一 个 循环 ， 每 
次 检查 关系 中 的 一 个 元 组 ， 直 至 检查 最 后 一 个 元 组 后 结束 。 宿 主语 言 可 以 读 取 soLsTarEg 的 值 ， 
并 根据 读 取 的 值 做 出 相应 的 决策 。 


宿主 语言 
编译 器 






SQL 库 






O 这 儿 要 注意 ， 如 在 10.4 节 中 讨论 的 递归 SQL 或 者 8.2 节 中 讨论 到 的 SQL/PSM 一 样 ， 基 本 SQL 语言 的 扩张 确实 
提供 了 “图 灵 完 备 性 "”， 也 就 是 说 ， 能 够 计算 用 其 他 编程 语言 计算 的 任何 问题 。 然 而 ， 这 些 扩 展 不 准备 用 于 
通用 目的 计算 ， 因 此 它们 不 被 看 作 是 通用 性 语言 。 








8.1.3 DECLARE 节 
共享 变量 的 声明 加 入 到 如 下 两 个 戏 套 SQL 语句 之 间 : 


EXEC SQL BEGIN DECLARE SECTION; 


EXEC SQL END DECLARE SECTION; 


两 个 语句 之 间 称 为 declare 节 。Declare 节 的 变量 声明 形式 可 以 是 宿主 语言 要 求 的 任何 形式 。 
更 进一步 讲 ， 为 使 声明 的 变量 有 意义 ， 其 类 型 可 以 是 宿主 语言 和 SQL 都 能 够 处 理 的 ， 如 整 型 ， 
实 型 和 字符 型 ， 或 者 数组 类 型 。 

例 8.1 下 面 的 语句 是 更 新 Studio 关 系 的 C 函 数 的 一 部 分 : 


EXEC SQL BEGIN DECLARE SECTION; 
char studioName[50], studioAddr [256]; 
char SQLSTATE[6] ; 

EXEC SQL END DECLARE SECTION; 

第 一 个 和 最 后 一 个 语句 是 DECLARE 节 必需 的 开头 和 结束 。 中 间 的 语句 声明 了 两 个 变量 
studioName 和 studioAqddr。 它们 都 是 字符 型 数组 ， 如 将 看 到 的 ， 是 用 来 保存 一 个 制 片 厂 
的 名 称 和 地 址 ， 它 们 组 成 一 个 元 组 并 插入 到 studio 关 系 式 中 。 第 三 个 语句 将 SQLSTATE 声 明 
为 包含 6 个 字符 的 数组 9 。 口 


8.1.4 使 用 共享 变量 

共享 变量 可 以 用 在 SQL 语 句 中 任何 需要 和 人 允许 常量 的 地 方 。 回忆 一 下 , 共享 变量 这 样 使 用 时 ， 
都 要 加 前 级 冒号 。 下 面 的 例子 使 用 了 例 8.1 中 的 变量 作为 元 组 的 一 部 分 插入 到 stuqdio 关 系 中 。 

例 8.2 ”图 8-2 中 显示 了 一 个 C 函 数 : getstuaio， 该 函数 要 求 用 户 提供 一 个 制 片 厂 的 名 称 
和 地 址 ， 读 取 结 果 ， 并 将 合适 的 元 组 插入 到 studio。 第 1 行 到 第 4 行 是 例 8.1 中 已 知 的 声明 。 图 
中 省 略 了 打印 要 求 的 C 代 码 以 及 扫描 所 输入 的 文本 并 填写 到 两 个 数组 studioName 和 studio- 
Addr WHICH. 

接着 ， 第 5 行 和 第 6 行 是 常规 的 INSERT 语 句 。 这 条 语句 以 ExEC SoL 开 头 ， 表 明 这 实际 上 
是 一 个 戏 套 SQL 语句 ， 而 非 不 符合 语法 的 C 代 码 。 图 8-1 中 的 预 处 理 器 将 寻找 EXEC soL, ME 
检测 必须 预 处 理 的 语句 。 

第 5 行 和 第 6 行 插入 的 值 不 是 显 式 常量 ， 和 前 面 例子 如 例 6.34 一 样 。 而 且 ， 第 6 行 中 出 现 的 
值 是 共享 变量 ,这 些 共享 变量 的 当前 值 构成 了 被 插入 元 组 的 一 部 分 。 口 


除了 INSERT 语 句 外 ， 还 有 许多 SQL 语 句 可 以 通过 共享 变量 作为 接口 ， 宜 人 到 宿主 语言 中 。 
在 入 主语 言 中 ， 每 个 能 套 SQL 语句 以 EXEC SQL 打头 ， 并 且 可 以 共享 变量 代替 常量 。 任 何不 返 
回 结果 的 SQL 语句 〈 也 就 是 说 ， 非 查询 语句 ) 都 可 以 被 嵌 套 。 可 稚 套 的 SQL 语句 包括 DELETE 
和 UPDATE 语 句 以 及 那些 创建 、 更 新 、 或 者 删除 表 和 视图 等 模式 元 素 的 语句 。 

然而 ， 由 于 “阻抗 不 匹配 ”，select-from-where 查 询 不 能 直接 嵌 套 到 宿主 语言 。 查 询 产 生 的 
结果 是 元 组 集合 ， 但 是 大 多 数 宿主 语言 均 不 直接 支持 集合 数据 类 型 。 因 此 ， 为 了 将 查询 结果 连 
接 到 宿主 语言 程序 ， 嵌 套 SQL 不 得 不 从 下 面 两 种 机 制 中 选择 一 种 。 


日 ”对 于 5 字符 值 的 SQLSTATE， 使 用 了 6 个 字符 ， 因 为 下 面 的 程序 中 ， 使 用 C 函 数 stremp 来 测试 SQLSTATE 是 否 
是 确定 的 值 。 既 然 strcmp 希 望 字符 串 以 ，\0” 结束， 那么 对 于 这 个 结束 符 ， 就 需要 第 6 个 字符 。 第 六 个 字符 
必须 初始 化 为 ”\"， 后 面 的 程序 中 将 不 再 说 明 这 个 赋值 。 
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void getStudio() { 


EXEC SQL BEGIN DECLARE SECTION; 
char studioName[50], studioAddr [256]; 
char SQLSTATE[6] ; 

EXEC SQL END DECLARE SECTION; 


/* print request that studio name and address 
be entered and read response into variables 
studioName and studioAddr */ 


EXEC SQL INSERT INTO Studio(name, address) 
VALUES (:studioName, :studicAddr); 





图 8-2 使 用 共享 变量 插入 新 的 制 片 厂 


1. 只 有 一 个 结果 元 组 的 查询 可 以 将 该 元 组 存储 到 共享 变量 中 ， 一 个 变量 对 应 元 组 的 一 个 字 
段 值 。 为 此 ， 使 用 了 select-from-where 语 句 的 一 种 改进 形式 ， 单元 组 选择 。 

2. 对 于 结果 元 组 多 于 ~… 个 的 查询 ， 可 以 为 它 声明 一 个 游标 。 游 标 扫描 了 结果 关系 中 的 所 有 
元 组 ， 每 个 元 组 依次 被 提取 到 共享 变量 ， 并 由 宿主 语言 进行 处 理 。 

下 面 依 次 对 每 种 机 制 进行 讨论 。 

8.1.5 单元 组 选择 语句 

单元 组 选择 的 形式 类 似 于 普通 的 select-from-where 语 句 ， 只 是 sgLEcT 子 句 后 紧 跟 着 关键 字 
INTO 和 和 一连串 的 共享 变量 。 与 SQL 语 句 中 的 所 有 共享 变量 一 样 ， 这 些 共享 变量 以 冒号 作为 前 
缀 。 如 果 查 询 结果 是 个 单一 元 组 ， 那 么 这 个 元 组 的 组 成 成 分 将 被 赋予 这 些 共享 变量 。 如 果 结 果 
没有 元 组 或 者 多 于 一 个 元 组 ， 那 么 不 会 分 配给 这 些 共享 变量 ， 同 时 一 个 相应 的 错误 码 被 写 人 到 

354] ”SQLSTATE 变 量 中 。 

例 8.3 ” 写 一 个 C 函 数 来 读 取 一 个 制 片 厂 的 名 称 并 输出 制 片 厂 经 理 的 资产 。 函 数 如 图 8-3 所 
示 。 它 开始 于 第 1 行 到 第 5 行 的 声明 部 分 ， 声 明了 所 需 的 变量 。 接 着 ， 从 标准 输入 取得 制 片 厂 的 
名 称 ， 这 个 C 语 句 并 没有 明确 写 出 。 

第 6 行 到 第 9 行 是 单元 组 选择 语句 ， 这 与 以 前 看 到 的 查询 十 分 相似 。 有 两 个 不 同 : 一 是 在 
第 9% 行 的 条 件 中 ， 变 量 studaioName 的 值 被 用 来 代替 常量 字符 捉 ; 二 是 ， 第 7 行 有 一 条 INTO 子 
名 显示 了 查询 结果 放置 的 位 置 。 这 种 情况 下 ， 只 希望 产生 单一 的 元 组 ， 且 元 组 只 有 一 个 组 成 
部 分 ， 即 属性 networth。 这 个 元 组 的 这 个 组 成 成 分 的 值 被 存储 在 共享 变量 preNetWorth 
中 。 口 


8.1.6 游标 

将 SQL 查询 连接 到 宿主 语言 中 最 通用 的 方法 是 使 用 游标 ， 游 标 快速 遍历 关系 的 元 组 。 这 个 
关系 可 以 是 一 个 被 存储 的 表 ， 也 可 以 是 由 查询 产生 的 结果 。 为 了 创建 和 使 用 游标 ， 下 列 语句 是 

[355] 必须 的 : 

1. 游标 定义 。 游 标 声 明 的 最 简 形 式 要 包含: 

(a) 引导 词 EXEC SoL ， 如 同 所 有 的 能 套 SQL 子 句 。 

(b) 关键 字 DECLARE。 

(c) 游标 的 名 称 。 

(d) 关键 字 CURSOR FOR。 


(e) 诸如 关系 的 名 称 或 者 select-from-where 语 句 之 类 的 表达 式 ， 其 值 是 一 个 关系 。 被 声明 的 
游标 扫描 这 个 关系 的 元 组 。 也 就 是 说 ， 当 使 用 游标 “ 取 值 ”时 ， 游 标 依次 指向 这 个 关系 的 每 个 
元 组 。 






void printNetWorth() { 






EXEC SQL BEGIN DECLARE SECTION; 












2) char studioName[50] ; 

3) int presNetWorth; 

4) char SQLSTATE[6] ; 

5) EXEC SQL END DECLARE SECTION; 


/* print request that studio name be entered. 
read response into studioName */ 


6) EXEC SQL SELECT netWorth 

7) INTO :presNetWorth 

8) FROM Studio, MovieExec 
9) WHERE presC# = cert# AND 


Studio.name = :studioName; 


/* check that SQLSTATE has all O’s and if so, print 
the value of presNetWorth */ 









图 8-3 #REETEC RRB AY AFT IC EEE 
总 之 ， 游 标的 定义 形式 如 下 : 


EXEC SQL DECLARE<cursor> CURSOR FOR<query> 





语句 EXEC SQL OPEN， 其 后 跟随 着 游标 的 名 称 。 这 个 语句 初始 化 游标 的 位 置 ， 使 游标 

Pre 中 第 一 个 元 组 ， 并 从 那里 开始 检索 。 

3. 一 次 或 者 多 次 使 用 fetch 子 名 。fetch 子 句 的 目的 是 得 到 游标 扫描 的 那个 关系 中 的 下 一 个 元 
组 。 如 果 元 组 已 经 被 遍历 过 ， 那 么 不 会 返回 任何 元 组 ， 且 sor,sTATE 被 赋值 为 ，02000’ ， 这 个 
代码 表示 “没有 发 现任 何 元 组 ”。fetch 子 句 的 构成 如 下 : 

(a) 关键 字 EXEC SQL FETCH FROM。 

(b) 游标 的 名 称 。 

(c) 关键 字 INTO。 

(d) 共享 变量 的 列表 ， 由 去 号 分 隔 。 如 果 要 提取 一 个 元 组 ， 那么 这 个 元 组 的 组 成 部 分 被 依 
次 存 人 到 这 些 变量 中 。 

也 就 是 说 ，fetch 子 句 的 形式 如 下 ; 


EXEC SQL FETCH FROM<cursor> INTO<list of variables> 


4. EXEC SQL CLOSE 子 句 ， 其 后 跟随 着 游标 的 名 称 。 这 条 语句 关闭 游标 ， 游 标 将 不 再 扫 
描 关 系 的 元 组 。 然 而 ,游标 可 以 由 另外 一 条 OPEN 语 句 重新 初始 化 ， 它 将 重新 扫描 这 个 关系 的 
元 组 。 

例 8.4 ”查询 满足 以 下 条 件 的 电影 制 片 人 的 个 数 ， 这 些 制 片 人 的 净 资 产 成 指数 型 增长 ， 每 
个 数值 段 对 应 代表 净 资产 的 位 数 。 因 此 设计 了 一 个 查询 ， 该 查询 用 来 检索 所 有 MovieExec 元 
组 的 netWorth 字 段 ， 并存 人 worth 共 享 变 量 中 。 游 标 execcursor 将 扫描 所 有 的 元 组 。 每 取 
一 个 元 组 时 ， 计 算 整 数 worth 的 位 数 ， 并 将 数组 counts 中 相应 元 素 加 1。 
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C 函 数 worthRanges 开 始 于 图 8-4 的 第 1 行 。 第 2 行 声明 了 只 能 被 C 函 数 使 用 ， 而 不 能 被 内 
套 5QL 语 句 使 用 的 变量 。 数 组 counts 保 存 了 在 不 同 带 中 的 制 片 人 数目 ，digits 计 算 净 资产 
的 位 数 ， 而 是 一 个 下 标 ， 用 来 检索 数组 counts 的 元 素 。 


1) void worthRanges() { 


int i, digits, counts[15]; | 

EXEC SQL BEGIN DECLARE SECTION; 
int worth; 
char SQLSTATE [6] ; 

EXEC SQL END DECLARE SECTION; 

EXEC SQL DECLARE execCursor CURSOR FOR 
SELECT netWorth FROM MovieExec; 


EXEC SQL OPEN execCursor; 
for(i=0; i<15; i++) counts[i] = 0; 
while (1) { 
EXEC SQL FETCH FROM execCursor INTO :worth; 
if (NO_MORE_TUPLES) break; 
digits = 1; 
while((worth /= 10) > 0) digits++; 


if (digits <= 14) counts[digits]++; 


} 
EXEC SQL CLOSE execCursor; 
for(i=0; i<15; i++) 
printf ("digits = %d: number of execs = %d\n", 
i, counts[i]); 





图 8-4 分 组 出 品 人 净 资 产 呈现 出 指数 型 增长 


第 3 行 到 第 6 行 是 SQL 的 声明 节 ， 声 明了 共享 变量 worth 和 SQLSTATE。 第 7 行 和 第 8 行 定 义 
了 游标 execCcursor， 该 游标 遍历 由 第 8 行 的 查询 所 产生 的 值 。 这 个 查询 仅仅 给 出 Movi eExec 
中 所 有 元 组 的 networth 字 段 。 游 标 在 第 9 行 打开 。 第 10 行 通过 数组 counts 的 元 素 的 置 零 来 完 
成 初始 化 。 
主要 的 工作 由 第 11 行 到 第 16 行 的 循环 完成 。 在 第 12 行 ， 一 个 元 组 被 读 取 到 共享 变量 worth 
中 。 虽 然 ， 一 般 说 ， 变 量 的 数目 和 被 检索 的 元 组 的 组 成 数目 一 样 ， 但 由 于 第 8 行 的 查询 产生 的 
元 组 只 有 一 个 成 分 ， 所 以 只 需 一 个 共享 变量 。 第 13 行 测试 提取 是 否 成 功 。 这 里 ， 使 用 了 一 个 宏 
NO_MORE_TUPLES， 其 定义 如 下 : 


#define NO_MORE_TUPLES ! (stremp(SQLSTATE,"02000") ) 


回忆 一 下 , ”02000” 是 一 个 SQLSTAmE 代 码 ， 表示 没有 找到 任何 元 组 。 这 样 ， 第 13 行 测试 
是 否 所 有 由 查询 返回 的 元 组 以 前 已 经 被 扫描 过 ， 能 否 得 到 “下 一 个 ”元 组 。 如 果 是 的 话 ， 就 中 
断 循环 ， 跳 转 到 第 17 行 。 

如 果 提 取 了 一 个 元 组 ， 那 么 第 14 行 将 净 资 产 的 位 数 初始 化 为 1。 第 15 行 是 一 个 循环 ， 此 循 
环 重 复 地 用 10 除 净 资 产 ， 并 且 将 digits 重 复 加 1。 当 净 资 产 被 10 除 以 后 为 零 时 ，digits 保 存 
了 那些 原本 被 检索 过 的 worth 值 的 正确 位 数 。 最 后 ， 第 16 行 将 数组 counts 中 对 应 元 素 加 1。 
假定 位 数 不 超 过 14。 然 而 ， 假 定 净 资产 有 15 或 者 更 多 的 数位 ， 第 16 行 对 数组 counts 的 元 素 不 
作 任 何 增加 ， 因 为 没有 对 应 的 范围 ; 也 就 说 ， 过 大 的 净 资产 被 丢弃 但 并 不 影响 统计 。 

函数 的 结束 开始 于 第 17 行 。 关 闭 游标 。 第 18 行 和 第 19 行 输出 数组 counts 中 的 值 。 口 











8.1.7 游标 修改 

游标 扫描 一 个 基本 表 的 元 组 ( 也 就 是 说 ， 存 储 到 数据 库 中 的 关系 ， 而 不 是 查询 建立 的 视图 
或 者 关系 ) 时 ， 不 仅 可 以 读 和 处 理 每 个 元 组 的 值 ， 而 且 可 以 更 新 或 者 删除 元 组 。UPDRATE 和 
DELETE 语 句 的 语法 除了 WHERE 子 名 外 和 第 6.5 节 中 的 一 样 。 这 里 WHERE 子 句 只 能 是 WHERE 
CURRENT OF， 其 后 跟着 游标 的 名 称 。 对 于 读 取 元 组 的 宿主 语言 而 言 ， 在 决定 删除 或 者 更 新 这 
个 元 组 之 前 ， 它 当然 可 能 将 任何 条 件 应 用 到 该 元 组 中 。 

例 8.5 ”图 8-5 中 的 C 函 数 查看 MovieExec 的 每 个 元 组 并 决定 是 删除 元 组 还 是 将 净 资 产 翻 
倍 。 第 3 行 和 第 4 行 定义 了 与 MovieExec 的 四 个 属性 相对 应 的 变量 ， 以 及 必需 的 SQLSTATE。 
然后 ， 在 第 6 行 中 声明 的 execcursor 扫 描 存 储 模 式 MovieExec 自 身 。 注 意 ， 当 试图 通过 游标 
修改 元 组 时 ， 该 游标 扫描 某 个 作为 查询 结果 的 临时 关系 。 如 果 游标 扫描 MovieExec 之 类 的 存 
储 模式 ， 就 将 对 数据 库 产生 持久 的 影响 。 


1) void changeWorth() { 


EXEC SQL BEGIN DECLARE SECTION; 

int certNo, worth; 

char execName[30], execAddr [256], SQLSTATE[6]; 
EXEC SQL END DECLARE SECTION; 
EXEC SQL DECLARE execCursor CURSOR FOR MovieExec; 


EXEC SQL OPEN execCursor; 
while(1) { 
EXEC SQL FETCH FROM execCursor INTO :execName, 
:execAddr, :certNo, :worth; 
if (NO_MORE_TUPLES) break; 
if (worth < 1000) 
EXEC SQL DELETE FROM MovieExec 
WHERE CURRENT OF execCursor; 
else 
EXEC SQL UPDATE MovieExec 
SET netWorth = 2 * netWorth 
WHERE CURRENT OF execCursor; 
} 
EXEC SQL CLOSE execCursor; 





图 8-5 修改 制 片 人 的 净 资 产 


第 8 行 到 第 14 行 是 循环 ， 循 环 中 游标 execCursor 依 次 指向 MovieExec 的 每 个 元 组 。 第 9 
行将 当前 元 组 提取 到 为 此 设置 的 四 个 变量 中 ， 通 常 只 用 到 了 worth。 第 10 行 测试 MovieFExec 
的 元 组 是 否 都 检索 过 了 。 这 里 再 次 使 用 了 宏 ON_MORE_TUPLES， 作 为 变量 SQLSTATE 包 含 
“没有 元 组 ”的 ”02000” 代 码 的 条 件 。 

第 11 行 查询 净 资 产 是 否 低 于 $1000。 如 果 是 ， 元 组 被 第 12 行 的 DELETE 语 句 删除 。 注 意 涉 及 
到 游标 的 WHERE 子 句 ， 这 样 刚刚 提取 的 Moviezxec 的 当前 值 从 MovieExec 中 删除 了 。 如 果 净 
资产 至 少 是 $1000， 那 么 在 第 14 行 ， 同 一 个 元 组 中 的 净 资产 被 翻 倍 。 口 
8.1.8 防止 并 发 更 新 

假定 用 图 8-4 中 的 函数 worthRanges 检 查 电影 制 片 人 的 净 资 产 时 ， 某 个 其 他 进程 正在 修改 

底层 的 MovieExec 关 系 。 在 第 8.6 节 中 讨论 事务 时 ， 将 就 一 些 进 程 同时 访问 同一 个 数据 库 做 更 
详细 地 说 明 。 然 而 目前 ， 仅 仅 说 是 存在 这 样 的 可 能 性 ; 别 的 进程 可 以 修改 正在 使 用 中 的 关系 。 


we 
a 
© 
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对 于 这 种 可 能 性 ， 该 怎么 办 呢 ? 也 许 什 么 都 不 用 做 。 可 能 近似 的 统计 就 足够 了 ， 例 如 ， 人 
们 并 不 必 关 心 正 在 被 删除 的 制 片 人 是 否 已 统计 过 了 。 这 样 ， 只 通过 游标 读 取 元 组 就 可 以 了 。 

可 是 ， 人 们 并 不 希望 游标 读 取 的 元 组 被 并 发 的 变化 所 影响 。 而 是 强调 统计 是 针对 某 个 时 刻 
已 存在 的 关系 。 在 收集 统计 数据 之 前 ， 并 不 能 准确 地 把 握 MovieExec 发 生 了 哪些 修改 ， 但 是 ， 
希望 要 么 所 有 的 修改 语句 被 在 函数 worthRanges 运 行 之 前 已 经 彻底 完成 ， 要么 在 该 函数 运行 
之 后 才 开 始 进行 ， 而 不 用 关心 一 条 修改 语句 影响 了 多 少 个 制 片 人 。 为 了 保证 这 一 点 ， 有 并 发 变 
化 时 ， 可 以 将 游标 声明 为 不 敏感 (insensitive)。 

例 8.6 图 8-4 中 的 第 7 行 和 第 8 行 修 改 成 如 下 形式 : 


7) EXEC SQL DECLARE execCursor INSENSITIVE CURSOR FOR 

8) SELECT netWorth FROM MovieExec; 

这 样 定义 的 execCursor， 使 得 SQL 系统 保证 了 在 sxeccursor 打 开 和 关闭 之 间 对 关系 
MovieExec 所 作 的 变化 不 会 影响 提取 到 的 元 组 集合 。 L 


声明 游标 不 敏感 的 代价 很 高 ， 因 为 SQL 系统 必须 花 大 量 的 时 间 管 理 数据 访问 ， 以 确信 游标 
是 不 敏感 的 。 同 样 ，8.6 节 将 再 次 讨论 对 数据 库 并 发 操作 的 管理 。 然 而 ， 支 持 不 敏感 游标 的 一 
个 简单 方法 就 是 ， 使 SQL 系 统 挂 起 那些 访问 了 不 敏感 游标 查询 所 用 到 关系 的 进程 。 

某 些 关 系 R 上 的 游标 可 以 确信 不 会 改变 R。 这 样 的 游标 可 以 与 R 的 不 敏感 游标 同时 运行 ， 而 
不 用 担心 会 改变 不 敏感 游标 读 到 的 关系 R。 如 果 游 标 声 明 为 FOR READ ONLY， 那 么 数据 库 系 
统 可 以 确信 基本 关系 不 会 因为 游标 对 这 个 关系 的 访问 而 被 修改 。 

例 8.7 在 图 8-4 的 第 8 行 以 后 加 上 下 面 一 行 : 

FOR READ ONLY; 

这 样 ， 任 何 试图 通过 游标 execcursor 所 做 出 的 修改 都 会 产生 错误 。 口 


8.1.9 卷 型 游标 

游标 提供 了 怎样 遍及 一 个 关系 的 元 组 的 选择 。 缺 省 的 、 并 且 最 通常 的 选择 是 从 关系 顶端 开 
始 ， 然 后 依次 提取 元 组 ， 直 至 末尾 。 不 过 ， 还 可 以 按 别 的 顺序 提取 元 组 ， 在 游标 关闭 前 可 以 扫 
描 元 组 好 几 次 。 为 了 能 获得 这 样 选择 的 优越 性 ， 必 须 作 如 下 两 件 事情 。 

1. 声明 游标 时 ， 将 关键 字 SCROLL 置 于 保留 字 cCURSoR 之 前 。 这 个 变化 告诉 了 SQL 系统 ， 
游标 的 使 用 方式 不 只 是 按照 元 组 的 顺序 向 前 移动 。 

2. FETCH 语 句 中 ， 关 键 字 FETCH 后 面 跟着 的 是 下 面 所 列 选项 中 的 一 个 ， 选 项 决定 所 期 望 的 
元 组 的 位 置 。 

(a) NEXT 或 者 PRIOR 按 顺序 提取 下 一 个 或 者 上 一 个 元 组 。 记 住 这 些 元 组 是 相对 于 游标 的 当 
前 位 置 。 如 果 没 有 指定 选项 ，NEXT 是 缺 省 的 选择 ， 也 是 最 常 使 用 的 。 

(b) FIRST 或 者 LAST 提 取 顺 序 中 的 第 一 个 或 最 后 一 个 元 组 。 

(c) RELATIVE 后 面 跟随 一 个 正 整数 或 负 整 数 ， 这 个 整数 表示 所 期 望 的 元 组 按 顺 序 向 前 
(对 于 正 整数 ) 或 向 后 ( 对 于 负 整 数 ) 所 要 移动 的 元 组 数 。 如 ，RELATIVE 1 与 NEXT 意 义 相同 ， 
RELATIVE -1 与 PRIOR 意 义 相 同 。 

(d) ABSOLUTE 后 面 跟随 一 个 正 整 数 或 负 整数 ， 这 个 整数 表示 所 期 望 的 元 组 的 位 置 是 在 从 
头 部 ( 对 于 正 整数 ) 或 从 尾部 ( 对 于 负 整 数 ) 开始 计算 多 少 个 。 如 ，ABSOLUTE 1 与 FIRST 意 
XMF, ABSOLUTE -1 与 LAST 意 义 相同 。 

例 8.8 重 写 图 8-$ 的 函数 ， 使 之 从 最 后 一 个 元 组 回 测 遍 历 全 部 元 组 。 首 先 ， 游 标 声 明 





execCursor 为 卷 型 ， 即 在 第 6 行 加 上 关键 字 SCROLL : 

6) EXEC SQL DECLARE execCursor SCROLL CURSOR FOR MovieExec; 

另外 ， 需 要 用 FETCH LAST 语 名 初始 化 元 组 的 提取 ， 循 环 中 使 用 FpTCH PRIOR。 图 8-5 的 
第 8 行 到 第 14 行 的 循环 在 图 8-6 中 被 重 写 。 读 者 不 要 以 为 逆序 读 取 在 MovieExec 中 的 顺序 存储 
元 组 有 什么 优势 。 口 





EXEC SQL FETCH LAST FROM execCursor INTO :execName, 
:execAddr, :certNo, :worth; 


while(1) { 
/* same. as lines (10) through (14) */ 
EXEC SQL FETCH PRIOR FROM execCursor INTO :worth; 





} 





图 8-6 PERF RERRMovierxec 


8.1.10 动态 SQL 

目前 为 止 ， 在 宿主 语言 中 的 SQL 散 套 形式 就 是 在 宿主 语言 程序 中 使 用 专门 的 SQL 查询 和 命 
令 。 和 内 套 SQL 另 一 种 形式 是 自身 可 以 被 宿主 语言 计算 的 语句 。 这 种 语句 编译 时 不 可 知 ， 因 此 ， Be 
不 能 被 SQL 预 处 理 器 和 宿主 语言 编译 器 处 理 。 

有 这 样 一 个 例子 说 明 这 种 情况 。 有 一 个 程序 ， 它 提示 用 户 输入 SQL 查询 ， 然 后 读 这 个 查询 ， 
并 执行 这 个 查询 。 第 6 章 中 假定 的 针对 这 种 特定 的 SQL 查询 的 基本 界面 就 是 这 样 的 一 个 程序 。 
每 个 商用 SQL 系统 均 提 供 了 这 种 类 型 的 基本 SQL 界面 。 如 果 查 询 是 在 运行 时 读 取 和 执行 ,那么 
编译 时 什么 都 不 必 做 。 查 询 被 读 到 后 ， 将 立即 进行 语法 分 析 ， 并 且 由 SQL 系统 寻找 合适 执行 该 
查询 的 方式 。 

宿主 语言 程序 必须 指导 SQL 系统 接受 刚刚 读 到 的 字符 串 ， 并 将 字符 串 转化 为 可 执行 的 SQL 
语句 ， 最 后 执行 这 条 语句 。 下 面 两 条 动态 SQL (Dynamic SQL ) 语句 完成 这 两 步 工作 : 

l. EXEC SQL PREPARE 其 后 跟随 SQL 变量 Y、 保 留 字 FROM 和 宿主 语言 变量 或 者 字符 串 
类 型 的 表达 式 。 这 条 语句 使 字符 串 被 当 作 SQL 语 句 。 也 许 ， 将 对 SQL 语 句 进行 语法 分 析 且 由 
SQL 系 统 寻 找到 一 个 不 错 的 执行 该 语句 的 方案 。 但 是 ， 语 句 并 没有 被 执行 ， 执 行 该 SQL 语 句 的 
计划 变 成 了 V 的 值 。 

2. EXEC SQL EXECUTE 后 面 跟随 的 是 如 (1) 中 VY 的 一 个 SQL 变量 。 这 条 语句 引起 VY 所 
代表 的 SQL 语句 的 执行 。 

上 述 两 步 可 以 用 下 面 的 语句 合 二 为 一 : 


EXEC SQL EXECUTE IMMEDIATE 


跟随 其 后 的 是 一 个 字符 串 型 的 共享 变量 或 者 一 个 字符 串 型 的 表达 式 。 如 果 一 条 语句 被 编译 
一 次 ,然后 执行 很 多 次 时 ， 就 会 看 到 合并 这 两 步 是 不 利 的 。 使 用 EXECUTE IMMEDIATE， 每 
次 语句 执行 时 都 要 付出 准备 该 语句 的 代价 ， 而 不 是 只 付出 一 次 。 

例 8.9 ”图 8-7 中 是 一 个 C 程 序 。 该 程序 从 标准 输入 中 读 取 文本 输送 到 一 个 变量 query 中 ， 
准备 并 执行 这 个 查询 。SQL 变 量 SoLauery 存 储 准备 好 的 查询 。 既 然 查 询 只 执行 一 次 ， 那 么 
语句 : 

EXEC SQL EXECUTE IMMEDIATE query 


可 以 替代 图 8-7 中 的 第 6 行 和 第 7 行 。 T 
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1) void readQuery() f{ 


2) EXEC SQL BEGIN DECLARE SECTION; 
3) char *query; 
4) EXEC SQL END DECLARE SECTION; 


5) /* prompt user for a query, allocate space (e.g., 
use malloc) and make shared variable :query point 
to the first character of the query */ 

6) EXEC SQL PREPARE SQLquery FROM :query; 

7) EXEC SQL EXECUTE SQLquery; 





图 8-7 准备 并 执行 一 条 动态 SQL 查 询 


8.1.11 习题 
习题 8.1.1 写 出 下 列 基 于 习题 5.2.1 的 数据 库 模式 的 幅 套 SQL 查 询 


Product (maker, model, type) 

PC(model, speed, ram, hd, rd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 


可 以 使 用 你 所 熟悉 的 任何 宿主 语言 ， 宿 主语 言 编程 的 细节 可 以 用 清楚 的 注释 代替 。 

* a) 询问 用 户 一 个 价格 ， 找 出 价格 与 这 个 价格 最 相 接 近 的 PC。 输 出 该 PC 的 maker、 
model 和 speed。 

b) 询问 用 户 能 接受 的 速度 、RAM、 硬 盘 大 小 和 显示 器 尺寸 的 最 小 值 。 找 出 满足 要 求 
的 所 有 手提 电脑 。 输 出 它们 的 规格 〈1aptop 的 所 有 属性 ) 和 它们 的 制造 商 。 

! 9 询问 用 户 一 个 制造 商 。 输 出 制造 商 的 所 有 产品 的 规格 。 即 输出 modael1 number, 
product-type 以 及 适合 这 个 类 型 的 关系 的 所 有 属性 。 

! gd) 询问 用 户 的 “预算 ”( PC 和 打印 机 的 总 价格 ) 和 PC 机 的 最 小 速度 。 找 出 最 便宜 的 
“系统 ”( PC 加 上 打印 机 ) 使 其 在 预算 之 内 和 满足 最 小 速度 ， 但 尽 可 能 使 打印 机 为 
彩色 打印 机 。 输 出 所 选 系统 的 型 号 。 

e) 询问 用 户 制 造 商 、 型 号 、 速 度 、RAM、 硬 盘 的 大 小 、 速 度 和 种 类 或 是 否 为 可 移动 
磁盘 ， 以 及 新 PC 的 价格 。 如 果 没 有 检查 到 这 种 型 号 的 PC， 输 出 一 个 警告 ， 否 则 将 
信息 揪 入 到 表 Prodquct 和 PC 中 。 

*! 了 所 有 “ 旧 ”PC 降 价 $100。 确 定 程序 运行 时 插入 的 “新 ”PC 没有 降价 。 

习题 8.1.2 ” 写 出 下 列 基于 习题 5.2.4 的 数据 库 模 式 的 肉 套 SQL 查询 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles(name, date) 

Outcomes (ship, battle, result) 


a) 船 的 火力 大 约 与 火炮 的 数目 与 火炮 口径 立方 的 乘积 成 比例 。 找 出 具有 最 大 火力 的 类 


别 。 
! b) 向 用 户 询问 战役 的 名 称 。 找 出 该 战役 中 参战 船只 的 所 属国 。 输 出 沉船 最 多 的 国家 和 
损坏 船只 最 多 的 国家 。 


c) 向 用 户 询问 一 个 类 别 的 名 称 和 表 classes 中 元 组 所 要 求 的 其 他 信息 。 接 着 给 出 那 
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个 类 别 的 船 的 名 字 和 下 水 日 期 的 列表 。 但 是 用 户 给 出 的 第 一 个 名 字 不 必 是 类 别 的 名 
字 。 将 收集 的 信息 插 人 到 Classes 和 Ships 中 。 
! d) 检查 关系 Battles、Outcomes 和 Ships 中 在 下 水 前 已 经 参战 的 船只 。 当 发 现 错 误 
时 ,提示 用 户 并 提供 改变 下 水 日 期 和 战役 日 期 的 选项 ， 按 要 求 进行 改动 。 
*! 习题 8.1.3 本 习题 的 县 的 是 找 出 关系 


PC(model, speed, ram, hd, rd, price) 


中 所 有 符合 条 件 的 PC， 要 求 至 少 存在 两 种 与 其 速度 相同 但 价格 更 贵 的 PC。 虽 然 有 很 多 方 
法 可 以 实现 ,但 是 在 本 习题 中 要 使 用 卷 动 游 标 。 先 按 speed 再 按 price 的 顺序 读 取 PC 元 
Ho RR: 对 于 每 个 元 组 的 读 取 ， 向 前 跳 过 头 两 个 元 组 以 查看 速度 是 否 改 变 。 


8.2 模式 中 的 存储 过 程 


这 一 节 介绍 最 新 的 持久 性 存储 模块 ( SQL/PSM PSM 或 PSM-96 )。 商 业 性 的 DBMS 均 向 
用 户 提供 了 以 数据 库 模 式 的 形式 存储 函数 或 过 程 的 方式 ， 这 些 函 数 或 过 程 可 用 于 SQL 查询 或 别 
的 SQL 语句 中 。 这 些 代码 使 用 简单 通用 的 语言 编写 ， 可 以 在 数据 库 中 完成 不 能 用 SQL 查询 语言 
表达 的 计算 。 本 书 描述 了 SQL/PSM 标 准 。 该 标准 表明 了 这 些 功 能 的 主要 思想 ， 有 助 于 读者 理 
解 与 任何 特定 系统 相关 的 语言 。 

PSM 中 定义 了 模块 ， 这 个 模块 是 如 下 内 容 的 集合 ， 它 们 是 : 函数 和 过 程 定义 、 临 时 关系 声 
明和 其 他 声明 。8.3.7 节 将 更 进一步 讨论 模块 ， 这 里 只 讨论 PSM 的 函数 和 过 程 。 
8.2.1 创建 PSM 函 数 和 过 程 

过 程 声明 的 主要 成 分 如 下 : 

CREATE PROCEDURE <name> (<parameters>) 


local declarations 
procedure body; 


这 种 形式 与 许多 编程 语言 相似 。 它 由 过 程 名 、 用 圆 括号 括 起 的 参数 列表 、 一 些 局 部 变量 声 
明和 定义 函数 代码 的 执行 体 组 成 。 函 数 定义 基本 上 与 过 程 定义 的 方式 相同 ， 除 了 使 用 的 是 保留 
字 FUNCTION 和 必须 指定 返回 值 的 类 型 。 函 数 声明 的 主要 成 分 如 下 : 


CREATE FUNCTION <name> (<parameters>) RETURNS <type> 
local declarations 
function body; 


过 程 的 参数 是 模式 -名 字 - 类 型 的 三 段 式 ,很 像 4.2.7 节 提 到 的 ODL 方 法 的 参数 。 也 就 是 ， 
不 仅 要 如 同 编程 语言 一 样 ， 在 参数 名 后 跟随 参数 所 定义 的 类 型 ， 而 且 要 加 一 个 “模式 ”前 级 。 
该 前 缀 要 么 是 IN， 要 人 么 是 ouT， 或 者 INOUT。 这 三 个 关键 字 分 别 表明 参数 是 仅 输入 的 、 仅 输出 
的 、 或 者 即 可 输入 又 可 输出 的 。 缺 省 值 IN 可 以 省 略 。 

尺 一 方面 ， 函 数 的 参数 只 可 以 是 IN 模式 。 也 就 是 ，PSM 阻 止 了 函数 中 的 副作用 ， 所 以 从 
函数 中 得 到 信息 的 惟一 方式 是 通过 函数 的 返回 值 。 虽 然 在 过 程 定 义 中 常常 指出 TIN 模式 ， 但 是 
在 函数 参数 中 将 不 指明 IN 模式 。 

例 8.10 ”虽然 还 没有 学 习 过 程 体 和 函数 体 的 各 种 各 样 语句 ， 但 SQL 语句 的 出 现 并 不 令 人 感 
到 意外 。 对 这 些 语句 的 限制 和 8.1.4 节 介绍 的 骨 套 SQL 一 样 : 只 允许 查询 进行 单元 组 选择 语句 和 
基于 游标 的 访问 。 图 8-8 是 接受 一 新 一 旧 两 个 地 址 的 PSM 过 程 ， 每 个 住 在 旧地 址 的 影星 的 
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adqdress 属 性 改变 为 新 地 址 。 





1) CREATE PROCEDURE Move( 

2) IN oldAddr VARCHAR[255] , 

3) IN newAddr VARCHAR[255] 
) 

4) UPDATE MovieStar 

5) SET address = newAddr 

6) WHERE address = oldAddr; 





图 8-8 改变 地 址 的 过 程 


第 1 行 显示 了 过 程 及 其 名 称 Move。 第 2 行 和 第 3 行 包含 了 两 个 参数 ， 两 个 都 是 输入 参数 日 类 
型 是 最 大 长 度 为 255 的 变 长 度 字符 串 。 注 意 ， 该 类 型 和 图 6-16 中 定义 的 Moviestar 的 属性 
address 的 类 型 匹配 。 第 4 行 到 第 6 行 是 传统 的 UPDATE 语 句 。 参 数 名 可 以 被 当 作 常 数 使 用 。 宿 
主 变 量 在 SQL 中 使 用 时 必须 加 上 前 缀 冒号 ( 8.1.2 节 )， 但 是 PSM 过 程 和 函数 中 的 参数 或 别 的 局 
部 变量 不 要 求 加 彤 号 。 口 
8.2.2 PSM 中 的 简单 语句 格式 

先 看 如 下 这 些 容易 掌握 的 语句 格式 。 

1. 调用 语句 : 过程 调用 的 形式 : 


CALL <procedure name> (<argument list>); 


也 就 是 ,保留 字 cALL 后 跟随 过 程 名 和 和 用 圆 括号 括 起 的 参数 表 ， 这 与 大 多 数 语言 一 样 。 可 
是 ， 这 种 调用 语句 在 不 同 的 位 置 使 用 不 同 的 形式 : 
i. 例如， 在 宿主 语言 中 的 调用 形式 是 : 
EXEC SQL CALL Foo(:x, 3); 
ii. 作为 另 一 个 PSM 函 数 或 过 程 的 语句 。 
iii. 作为 发 送 给 基本 SQL 界面 的 SQL 命令 。 例 如 ， 把 
CALL Foo(1, 3); 


这 样 的 语句 发 送 给 该 界面 ， 并 且 分 别 用 1 和 3 作为 赋值 过 程 的 两 个 参数 ， 执 行 存 储 过 程 Feo。 

注意 ,不 允许 调用 函数 。 在 PSM 中 调用 函数 和 在 C 中 一 样 : 使 用 函数 名 和 匹配 的 参数 作为 
表达 式 的 一 部 分 。 

2. 返回 语句 : 格式 如 下 : 


RETURN <expression>; 


该 语句 只 能 出 现在 函数 中 。 它 计算 表达 式 的 值 ， 并 将 函数 的 返回 值 设置 为 计算 结果 。 然 而 ， 
和 普通 编程 语言 不 同 的 是 ，PSM 的 返回 语句 不 结束 这 个 函数 。 甚 至 ， 继 续 控制 后 面 的 语句 ， 而 
且 在 函数 完成 之 前 返回 值 可 能 被 改变 。 

3. 局 部 变量 定义 ; 语句 格式 为 

DECLARE <name> <type>; 

用 给 定 的 类 型 声明 给 定名 称 的 变量 。 这 个 变量 是 局 部 的 ， 在 函数 或 者 过 程 运行 后 ，DBMS 
不 再 保存 其 值 。 函 数 或 过 程 体 中 的 声明 必须 在 可 执行 语句 之 前 。 ， 

4. 赋值 语句 : 格式 如 下 : 


SET <variable> = <expression>; 
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除了 引导 保留 字 SET 外 ，PSM 中 的 赋值 和 别 的 语言 完全 相似 。 计 算 等 号 右边 的 表达 式 ， 并 
赋值 给 等 号 左边 的 变量 。 表 达 式 可 以 是 NULL ， 也 可 以 是 查询 ， 只 要 查询 是 返回 一 个 单 值 。 

5. 语句 组 : 语句 组 以 分 号 结束 ， 并 置 于 保留 字 BEGIN 和 END 之 间 。 这 种 构造 被 当 作 单个 语 
句 ， 可 以 出 现在 单个 语句 可 以 出 现 的 任何 地 方 。 特 别 是 ， 由 于 过 程 或 函数 体 相 当 于 单个 语句 ， 
所 以 在 过 程 和 函数 体 中 可 插入 任何 语句 序列 ， 只 要 它们 被 置 于 BEGIN 和 END 之 间 。 

6. 语句 标号 : 8.2.5 节 将 说 明 为 什么 有 些 语句 需要 标号 。 用 名 字 (标号 名 ) 和 冒号 作为 前 缀 
来 标识 诸 句 。 
8.2.3 分 支 语句 

复杂 的 PSM 语 句 类 型 中 ， 先 考虑 if 语 句 。 其 形式 有 点 奇怪 ; 与 C 和 其 他 类 似 诸 言 的 不 同 是 ; 

1. 用 保留 字 END IF 结 束 

2. REEL LI WEL se TAL Ai ELSEIFIFG, 

因此 ，if 语 名 的 一 般 格 式 如 图 8-9。 条 件 可 以 是 任何 boolean 类 型 的 表达 式 ， 如 同 SQL 语 句 的 
where 子 句 。 语 句 列表 由 以 分 号 结束 的 语句 构成 ， 但 不 必 置 于 BEGIN . . .END 之 间 。 最 后 的 
ELSEME Ma A ETA, DRE, BARAIF...THEN...END IF, 要 么 只 带 有 
ELSEIF, 


IF <condition> THEN 
<statement list> 
ELSEIF <condition> THEN 
<statement list> 


ELSEIF 


ELSE <statement list> 
END IF; 


图 8-9 if 语 句 的 格式 
例 8.11 ”编写 一 个 关于 年 份 y 和 制 片 厂 * 的 函数 ， 它 返 回 一 个 布尔 值 ， 其 值 为 true 当 且 仅 当 
制 片 厂 s 在 第 y 年 至 少 制作 了 一 部 黑白 电影 ， 或 者 在 那 一 年 没有 制作 任何 电影 。 其 代码 见 图 8-10。 


CREATE FUNCTION BandW(y INT, s CHAR[15]) RETURNS BOOLEAN 





IF NOT EXISTS( 
SELECT * FROM Movie WHERE year = y AND 
studioName = s) 
THEN RETURN TRUE; 
ELSEIF 1 <= 
(SELECT COUNT(*) FROM Movie WHERE year = y AND 
studioName = s AND NOT inColor) 


THEN RETURN TRUE; 
ELSE RETURN FALSE; 
END IF; 





图 8-10 如 果 制 作 了 电影 ， 则 至 少 有 一 部 是 黑白 电影 


第 1 行 引 入 了 函数 和 它 的 参数 。 参 数 模式 不 必 指定 ， 因 为 对 于 函数 只 能 是 IN 模式 。 第 2 行 
和 第 3 行 判 断 制 片 三 * 在 第 年 是 否 没 有 任何 电影 ， 如 果 是 ， 则 第 4 行 返 回 值 赋 为 TRUE。 注 意 第 4 
行 并 没有 使 函数 返回 。 从 技术 上 讲 ， 正 是 由 if 语句 规定 的 数据 流 引 起 了 从 第 4 行 到 第 9% 行 的 跳 转 ， 
在 第 9 行 函 数 完成 并 返回 。 

如 果 制 片 三 * 在 第 > 年 制作 了 电影 , 那么 第 5 行 和 第 6 行 测试 是 否 至 少 有 一 部 电影 不 是 彩色 的 。 
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如 果 是 的 话 , 返回 值 在 第 7 行 再 次 被 置 为 TRUE。 其 余 情 况 下 ， 制 片 厂 制作 了 电影 但 都 是 彩色 的 ， 
则 第 8 行 返回 值 被 置 为 FALSE。 口 


8.2.4 PSM 中 的 查询 

PSM 中 有 和 多 种 select-from-where 的 查询 方式 : 

1. 子 查 询 可 用 于 条 件 语句 中 ， 或 者 一 般 而 言 ，SQL 中 任何 地 方 使 用 子 查询 都 是 合法 的 。 

例如 ， 图 8-10 中 第 3 行 和 第 6 行 的 子 查询 。 

2. 返回 单一 值 的 查询 可 用 在 赋值 语句 的 右边 。 

3. PSM 中 单元 组 选择 语句 是 合法 语句 。 回 忆 含 有 INTO 子 句 的 语句 ，INTO 子 句 将 变量 赋值 
为 单个 的 返回 元 组 的 组 成 部 分 。 这 些 变 量 可 以 是 局 部 变量 或 PSM 过 程 的 参数 。 它 的 一 般 形式 曾 
在 8.1.5 节 的 伐 套 SQL 内 容 中 讨论 过 。 

4. 游标 的 定义 和 使 用 ， 和 8.1.6 节 插 套 SQL 的 描述 差不多 。 游 标的 定义 及 OPEN、FETCH 和 
CLOSE 语 句 等 都 和 原先 描述 的 一 样 ， 但 是 下 面 几 点 是 不 同 的 : 

(a) 语句 中 不 出 现 EXEC SOL 

b) 局 部 变量 不 使 用 冒号 前 级 。 


CREATE PROCEDURE SomeProc(IN studioName CHAR[15]) 






DECLARE presNetWorth INTEGER; 











SELECT netWorth 
INTO presNetWorth 

FROM Studio, MovieExec 

WHERE presC# = cert# AND Studio.name = studioName; 






图 8-11 PSM 中 的 单元 组 选择 


例 8.12 ”图 8-11 是 用 PSM 重 做 图 8-3 所 示 的 单元 组 选择 ， 并 且 是 置 于 假设 的 过 程 定义 正文 中 。 
注意 ， 因 为 单元 组 选择 只 返回 一 个 组 成 部 分 的 元 组 ， 故 下 面 的 赋值 语句 可 以 起 到 同样 的 作用 : 
SET presNetWorth = (SELECT netWorth 


FROM Studio, MovieExec 
WHERE presC# = cert# AND Studio.name = studioName) ; 


使 用 游标 的 例子 被 延迟 到 下 一 节 学 习 了 PSM 循 环 语句 之 后 给 出 。 口 
8.2.5 PSM 中 的 循环 
PSM 中 的 基本 循环 结构 如 下 : 


LOOP 
<statement list> 
END LOOP; 


LOOP 语 句 常常 被 标识 出 来 ， 所 以 可 以 使 用 下 面 的 语句 中 断 循环 : 

LEAVE <loop label>; 

通常 情况 下 ， 循 环 涉及 用 游标 读 取 元 组 ， 当 没有 更 多 的 元 组 时 ， 就 希望 离开 这 个 循环 。 为 
了 表示 没有 找到 元 组 的 SQLSTATE 值 (回忆 一 下 ， 是 ”02000' )， 可 以 定义 一 个 条 件 名 。 其 方 
法 是 用 如 下 语句 : 


SOLS) KAFFEE 
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DECLARE Not_Found CONDITION FOR SQLSTATE ’02000’; 

更 一 般 地 ， 可 以 用 如 下 语句 声明 任何 希望 的 名 字 和 任意 的 SQLSTATE 值 相对 应 的 条 件 : 

DECLARE <name> CONDITION FOR SQLSTATE <value>; 

下 面 研究 一 个 在 PSM 中 结合 使 用 游标 操作 和 循环 的 例子 。 

例 8.13 图 8-12 显 示 了 一 个 PSM 过 程 ， 该 过 程 将 制 片 厂 名 称 * 作 为 输入 参数 ， 并 且 在 输出 参 
数 mean 和 variance 给 出 制 片 厂 s 拥 有 的 所 有 电影 的 长 度 的 平均 值 和 方差 。 第 1 行 和 到 第 4 行 声 


明了 过 程 和 参数 。 





CREATE PROCEDURE MeanVar ( 

IN s CHAR[15] ， 

QUT mean REAL, 

OUT variance REAL 
) 
DECLARE Not_Found CONDITION FOR SQLSTATE 702000’ ; 
DECLARE MovieCursor CURSOR FOR 

SELECT length FROM Movie WHERE studioName = s; 
DECLARE newLength INTEGER; 
DECLARE movieCount INTEGER; 


BEGIN 
SET mean = 0.0; 
SET variance = 0.0; 
SET movieCount = 0; 
OPEN MovieCursor; 
movieLoop: LOOP 
FETCH MovieCursor INTO newLength; 
IF Not_found THEN LEAVE movieLoop END IF; 
SET movieCount = movieCount + 1; 
SET mean = mean + newLength; 
SET variance = variance + newLength * newLength; 
END LOOP; 
SET mean = mean/movieCount; 
SET variance = variance/movieCount - mean * mean ; 
CLOSE MovieCursor; 


图 8-12 某 电影 制 片 厂 拥有 的 影片 长 度 的 平均 值 和 方差 


第 5 行 到 第 8 行 是 局 部 声明 。 定 义 Not_Found 作 为 条 件 的 名 称 ， 该 条 件 表示 FETCH 在 第 5 行 
返回 读 取 元 组 失败 。 接 着 ， 第 6 行 ， 游 标 Moviecursor 被 定义 为 返回 制 片 三 * 拥 有 的 电影 的 长 
度 集合 。 第 7 行 和 第 8 行 声 明了 所 需 的 两 个 局 部 变量 。 整 数 newLength 保 存 了 FETCH 的 结果 ， 
而 movieCount 计 数 制 片 厂 s 拥 有 的 电影 的 数 月 。 之 所 以 需要 moviecount， 是 在 最 后 将 长 度 
的 和 转变 为 长 度 的 平均 值 ， 长 度 的 平方 和 转化 为 方差 。 

其 余 行 是 过 程 体 。Mean 和 variance 为 临时 变量 ， 以 及 最 后 的 “返回 ”结果 。 在 主 循环 
中 ，mean 实 际 保存 长 度 的 和 ，variance 实 际 保存 长 度 的 平方 和 。 因 此 ， 第 9 行 到 第 11 行 初始 
化 这 些 变量 和 电影 的 数目 为 0。 第 12 行 打开 游标 ， 第 13 行 到 第 19 行 形成 了 标识 为 novieLoop 


的 循环 。 


第 14 行 执行 读 取 元 组 ， 第 15 行 检查 是 否 找到 了 另 一 个 元 组 。 如 果 不 是 ， 结 束 循环 。 第 15 行 
到 第 18 行 计算 值 ， 将 Moviecount 加 1， 长 度 加 到 mean 上 (这 里 mean 实 际 是 计算 长 度 和 )， 长 
度 的 平方 加 到 variance 上 。 
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当 制 片 三 * 的 所 有 电影 被 检索 过 后 ， 循 环 结束 ， 转 到 第 20 行 。 在 第 20 行 ， 用 电影 的 数目 除 


去 长 度 和 得 到 mean 的 正确 值 。 第 21 行 ， 电 影 的 数目 除去 长 度 的 平方 和 ， 再 减 去 mean 的 平方 ， 
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使 variance 得 到 真正 的 方差 。 参见 习题 8.2.4 关 于 为 什么 这 么 计算 是 正确 的 讨论 。 第 22 行 关闭 
游标 ， 过 程 结 束 。 口 


8.2.6 ”For 循环 
PSM 中 也 有 for 循 环 结构 ， 不 过 其 惟一 重要 的 目的 是 : 游标 的 迭代 。 其 语句 形式 为 : 






其 他 的 循环 结构 
PSM 中 也 有 while- 和 repeat- 循 环 ， 其 含义 与 C 相 同 。 也 就 是 说 ， 可 以 创建 如 下 的 形式 
循环 : 
WHILE <condition> DO 


<statement list> 
END WHILE; 


或 者 
REPEAT 
<statement list> 

UNTIL <condition> 

END REPEAT; 

附带 地 ， 如 果 要 标识 这 些 循环 ， 包 括 由 1oop 语 身 或 for 语 句 形 成 的 循环 ， 可 以 把 标 
识 置 于 END LOOP 或 其 他 标识 符 之 后 。 这 样 做 的 优点 是 使 循环 结束 的 位 置 更 清楚 ， 促 使 
PSM 解 释 器 能 检测 到 忽略 了 END 的 语法 错误 。 

















FOR <loop name> AS <cursor name> CURSOR FOR 
<query> 

DO 
<statement list> 

END FOR; 


该 语句 不 但 声明 了 游标 ， 而 且 处 理 了 许多 “麻烦 的 细节 ”: 打开 和 关闭 游标 、 取 值 、 检 测 
是 否 没 有 元 组 可 以 获取 。 然 而 ,既然 不 必 自 己 去 取 元 组 ， 所 以 不 能 为 元 组 的 组 成 指定 存储 变量 。 
这 样 ， 查 询 结果 的 属性 名 也 是 由 PSM 作 为 相同 类 型 的 局 部 变量 处 理 。 

例 8.14 ”使 用 for 循 环 重 编写 图 8-12 的 过 程 。 代 码 见 图 8-13。 很 多 事情 没有 变化 。 图 8-13 中 
第 1 行 到 第 4 行 的 过 程 声 明 不 变 ， 第 5 行 中 局 部 变量 moviecount 的 声明 也 一 样 。 

然而 ， 在 过 程 的 声明 部 分 中 不 必 声 明 游标 ， 也 不 必定 义 条 件 Not_Found。 第 6 行 到 第 8 行 
像 前 面 一 样 初始 化 这 些 变量 。 接 着 ， 第 9 行 的 for 循 环 ， 也 定义 了 游标 Moviecursor。 第 11 行 
到 第 13 行 是 循环 体 。 注 意 ， 在 第 12 行 和 第 13 行 ， 所 涉及 的 长 度 是 游标 用 属性 名 1ength 来 检索 
的 ， 而 不 是 用 局 部 变量 名 newLength 检 索 ， 这 个 版 本 的 过 程 中 不 存在 newLength。 第 15 行 和 
第 16 行 为 输出 变量 计算 正确 的 值 ， 与 前 一 个 版 本 相同 。 口 
8.2.7 PSM 的 异常 处 理 

SQL 系统 通过 在 5 个 字符 的 字符 串 变 量 soLsTATE 设 置 非 零 的 数字 来 表明 错误 条 件 。 前 面 
已 经 看 到 这 些 代码 中 的 一 个 : 02000’ 表示“ 没有 找到 元 组 "”。 另 外 ,，21000， 表 示 “单元 组 
选择 返回 了 多 个 元 组 ”。 

PSM 可 以 定义 叫做 异常 处 理 〈exception handler) 的 代码 ， 在 语句 或 语句 组 执行 过 程 中 ， 
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当 错误 代码 列表 中 的 任何 一 个 出 现在 SQLSTaATE 中 时 ， 就 调用 异常 处 理 。 每 一 个 异常 处 理 都 和 
一 个 由 BEGIN . .END 描 述 的 代码 块 有 关 。 处 理 器 出 现在 代码 块 中 ， 并 且 仅仅 只 针对 代码 块 中 
的 语句 。 









1) CREATE PROCEDURE MeanVar( 






2) IN s CHAR[15], 
3) QUT mean REAL, 
4) OUT variance REAL 







) 


















5) DECLARE movieCount INTEGER; 
BEGIN 

6) SET mean = 0.0; 

7) SET variance = 0.0; 

8) SET movieCount = 0; 

9) FOR movieLoop AS MovieCursor CURSOR FOR 

SELECT length FROM Movie WHERE studioName = s; 

10) DO 

11) SET movieCount = movieCount + 1; 

12) SET mean = mean + length; 
13) SET variance = variance + length * length; 
14) END FOR; 

15) SET mean = mean/movieCount; 






SET variance = variance/movieCount - mean * mean; 






图 8-13 用 for 循 环 计算 平均 值 和 方差 


异常 处 理 的 组 成 是 : 

1. 一 组 异 灌 每 件 ， 当 这 些 条 件 成 立时 调用 异常 处 理 。 
2. 当 异 常 发 生 脖 、 与 该 异常 相 联 的 执行 代码 。 

3. 指明 处 理 器 完成 处 理 后 的 转移 去 处 。 

异常 处 理 声明 形式 如 下 : 


DECLARE “where to go> HANDEER FOR <condition list> 
<statement> 


转移 的 选择 有 3 种 : 
a) CONTINUE， 表 示 执 行 过 异常 处 理 声明 中 的 语句 之 后 ， 继 续 执行 产生 异常 的 语句 之 后 的 
那 条 语句 。 











For 循 环 中 为 什么 需要 名 字 ? 

注意 movieLoop 和 MovieCursor， 它 们 虽然 在 图 8-13 的 第 9 行 声明 ， 却 从 未 在 这 个 
玛 数 中 使 用 过 。 但 是 ， 仍 然 不 得 不 为 for 循 环 本 身 和 用 来 办 代 的 游标 起 名 。 原 因 是 PSM 解 
释 程 序 将 for 循 环 解释 为 一 个 普通 的 循环 ， 就 像 图 8-12 中 的 代码 ， 代 码 中 需要 这 两 个 名 字 。 






b) EXIT， 表 示 执 行 过 异常 处 理 语句 后 ， 控 制 离开 声明 异常 处 理 的 BEGIN. . . ENDR, F 
一 步 执行 该 代码 块 之 后 的 语句 。 

c) UNDO， 与 EXIT 差 不 多 ， 只 是 有 一 点 不 同 : 到 目前 为 止 ， 该 块 语句 的 执行 对 数据 库 或 局 
部 变量 的 改变 被 “取消 "”。 也 就 是 ， 所 产生 的 影响 被 取消 ， 就 好 像 这 些 语句 没有 执行 过 。 

“条 件 列表 ”是 由 逗号 分 隔 的 条 件 的 列表 ， 可 以 是 如 图 8-12 的 第 5 行 中 Not_Found 之 类 被 
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声明 的 条 件 ， 也 可 以 是 SoLSTAmE 和 5 位 字符 串 的 表达 式 。 
例 8.15 ”编写 一 个 PSM 函 数 ， 以 电影 标题 作为 参数 ， 返 回电 影 的 年 份 。 如 果 该 标题 的 电影 
不 存在 或 是 不 止 一 个 ， 则 返回 NULL。 代 码 见 图 8-14。 


CREATE FUNCTION GetYear(t VARCHAR[255]) RETURNS INTEGER 


DECLARE Not_Found CONDITION FOR SQLSTATE 02000 ; 
DECLARE Too_Many CONDITION FOR SQLSTATE °21000’; 


BEGIN 
DECLARE EXIT HANDLER FOR Not_Found, Too_Many 
RETURN NULL; 
RETURN (SELECT year FROM Movie WHERE title = t); 
END; 


图 8-14 单元 组 选择 返回 的 元 组 个 数 不 为 ! 的 例外 处 理 


第 2 行 和 第 3 行 声 明了 符号 条 件 ， 这 些 定义 不 是 必须 要 写 的 ， 也 可 以 使 用 第 4 行 所 代表 的 
SQL 状态 。 第 4、5、6 行 是 一 个 代码 块 ， 它 先 为 两 个 条 件 声明 了 异常 处 理 : 返回 零 个 元 组 的 条 
件 和 返回 多 于 一 个 元 组 的 条 件 。 第 5 行 异 常 处 理 动作 仅仅 是 把 返回 值 置 为 NULL。 

第 6 行 的 语句 做 了 函数 GetYear 的 工作 。 它 是 一 个 希望 正好 只 返回 一 个 整数 的 SELECT 语 
句 ， 该 整数 亦 是 函数 GetYear 要 返回 的 。 如 果 对 于 标题 ! ( 函数 的 输入 参数 ) 恰好 只 有 一 个 ， 
那么 就 返回 这 个 值 。 然 而 ， 如 果 第 6 行 发 生 了 异常 ， 要 么 因为 与 标题 :对 应 的 元 组 没有 ， 要 么 因 
为 对 应 的 元 组 不 止 一 个 ， 那 么 调用 异常 处 理 ， 且 返回 值 是 NULL。 既 然 处 理 是 EXIT 类 型 的 ， 故 
流程 的 下 一 步 到 达 END 之 后 的 那 一 处 。 因 为 此 处 是 函数 的 结束 处 ， 此 刻 GetYear 结 束 ， 返 回 
NULL 值 。 口 


8.2.8 使 用 PSM 函 数 和 过 程 

如 8.2.2 节 提 到 的 ， 可 以 在 骨 套 SQL 程 序 、PSM 代 码 本 身 或 提供 给 类 界面 的 普通 SQL 命 令 中 
调用 PSM 函 数 和 过 程 。 这 些 函数 和 过 程 的 用 法 和 大 多 数 编程 语言 相同 ， 过 程 调用 用 CALL ， 函 
数 作为 表达 式 的 一 部 分 出 现 。 下 面 给 出 从 特定 的 界面 中 调用 函数 的 例子 。 

例 8.16 ”假定 模式 中 包括 了 图 8-14 的 GetYear 函 数 。 想 像 面 对 特 定 的 界面 ， 准 备 输入 
Denzel Washington 是 Remember the Titans 中 的 影星 这 个 事实 。 可 是 ， 却 忘记 了 电影 的 年 份 。 只 
要 这 个 名 称 的 电影 具有 一 部 ， 并 且 它 就 在 关系 Movie 中 ， 那 么 ， 就 不 必 有 预先 查询 去 找 出 年 份 。 
而 且 ， 可 以 将 下 面 的 语句 插 人 到 这 个 特定 的 SQL 界面 中 : 

INSERT INTO StarsIn(movieTitle, movieYear, starName) 


VALUES(’Remember the Titans’, GetYear(’Remember the Titans’), 
’Denzel Washington’); 


如 果 具 有 Remember the 7irans 名 称 的 电影 不 是 一 部 时 ， GetYear 将 返回 NULL， 那 么 有 可 
能 使 该 分 量 插 入 值 是 NULL。 go 


8.2.9 习题 , 
习题 8.2.1 在 电影 数据 库 上 ， 


Movie(title, year, length, inColor, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 

MovieStar(name, address, gender, birthdate) 

MovieExec(name, address, cert#, netWorth) 

Studio(name, address, presC#) 











用 PSM 过 程 或 函数 完成 下 列 任 务 : 

* a) 给 定 电影 制 片 厂 的 名 称 ， 计 算 其 经 理 的 净 产 值 。 

* b) 给 定名 称 和 地 址 ， 如 果 这 个 人 是 影星 而 不 是 制 片 人 ， 返 回 1， 如 果 是 制 片 人 而 不 是 
影星 ， 则 返回 2， 如 果 既 是 影星 又 是 制 片 人 ， 返回 3， 如 果 既 不 是 影星 又 不 是 制 片 人 ， 
返回 4。 

! o 给 定制 片 三 名 称 ， 用 该 制 片 厂 的 两 部 最 长 的 电影 标题 给 输出 参数 赋值 。 如 果 没 有 这 
样 的 电影 则 参数 中 的 一 个 或 两 个 赋值 为 NULD ( 例如， 如 果 制 片 厂 只 有 一 部 电影 ， 
则 没有 “第 二 长 的 ”电影 )。 

d 给 定 一 位 影星 的 名 字 ， 找 出 他 出 演 的 且 超 过 120 分 钟 的 最 早 的 电影 。 如 果 没 有 这 样 
的 电影 ， 则 返回 年 份 0。 

e) 给 定 地 址 ， 如 果 这 个 地 址 的 影星 恰好 只 有 一 位 时 ， 找 出 这 位 惟一 影星 的 名 字 ， 如 果 
找到 的 影星 不 止 一 位 或 没有 找到 ， 则 返回 NULL。 

f) 给 定 影 星 名 字 ， 将 其 从 Moviestar 中 删除 ， 并 从 starIn 和 Movie 中 删除 他 们 出 演 
的 所 有 电影 。 

习题 8.2.2 ”基于 习题 5.2.1 中 的 数据 库 模式 

Product (maker model, type) 
PC(model, speed, ram, hd, rd, price) 


Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 


写 出 下 列 的 PSM 过 程 或 函数 。 

* a) 将 价格 作为 参数 ， 返 回 价 格 最 接近 的 PC 的 型 号 。 

b) 将 制造 商 、 型 号 和 价格 作为 参数 ,返回 这 种 型 号 的 任何 类 型 的 产品 的 价格 。 

! 9) 将 型 导 、 速 度 、ram、 硬 盘 、 可 移动 磁盘 和 价格 信息 作为 参数 ， 将 该 信息 插入 到 关 
系 PC 中 。 然 而 ， 如 果 已 经 有 这 种 型 导 的 PC ( 假定 插入 违反 键 约束 时 报错 ， 这 时 
SQLSTATE 为 ”23000” )， 那 么 型 号 加 1 直到 找到 一 个 不 存在 的 PC 型 号 。 

! 中 给 定价 格 ， 输 出 超过 这 个 价格 卖 出 的 PC、 手 提 电 脑 和 打印 机 的 数目 。 

习题 8.2.3 基于 习题 5.2.4 的 数据 库 模 式 
Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 


Battles(name, date) 
Outcomes(ship, battle, result) 


* 


写 出 下 列 PSM 函 数 或 过 程 。 
a) 船 的 火力 大 约 与 火炮 的 数目 与 火炮 口径 立方 的 乘积 成 正比 。 给 定 一 个 类 别 ， 得 出 它 
的 火力 。 


! b 给 定 战役 的 名 称 ， 输 出 该 战役 的 参战 船只 所 属 的 两 个 国家 。 如 果 所 涉及 的 国家 多 于 
或 少 于 两 个 ， 则 输出 时 两 个 国家 都 为 NULL。 
c) 将 新 的 类 别 的 名 称 、 类 型 、 国 家 、 火 炮 的 数目 、 口 径 和 排水 量 等 作为 参数 。 将 这 些 
信息 插入 到 classes 而 且 将 带 有 这 个 类 别名 称 的 船 加 入 到 ships 中 。 
! g) 给 定 船 的 名 字 ， 判 断 该 船 参 战 日 期 是 否 比 船 下 水 日 期 早 。 如 果 这 样 ， 参 战 日 期 和 下 
水 的 日 期 都 置 为 0。 
习题 8.2.4 在 图 8-12 中 ， 使 用 棘手 的 公式 来 计算 数字 序列 x1/，x%，...， 克 的 方差 。 方 差 是 这 些 数 
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字 城 去 其 平均 值 的 平方 的 均值 ， 即 ， WEL) 2) n, KEF (F) a)n 
证 明 图 8-12 中 使 用 的 方差 公式 


区 


产生 相同 的 结果 。 
8.3 SQL 环境 


这 一 节 尽 可 能 广泛 地 查看 DBMS 和 其 所 支持 的 数据 库 与 程序 。 从 这 里 可 以 看 到 数据 库 是 如 
何 定 义 的 ， 如 何 组 成 艇 、 目 录 和 模式 ， 以 及 程序 如 何 与 需要 操作 的 数据 连接 。 由 于 许多 细节 依 
赖 于 特定 的 实现 ， 因 此 这 里 着 重 于 SQL 标 准 包含 的 一 般 思 想 。8.4 节 和 8.5 节 阐述 了 这 些 高 层 的 
概念 如 何 出 现在 “调用 层 界 面 "， 它 要 求 程序 员 作出 对 数据 库 显 式 的 连接 。 

8.3.1 环境 

SQL 环境 是 一 个 框架 ， 该 框架 下 数据 可 以 存在 ， 在 数据 上 的 SQL 操作 可 以 执行 。 实 际 上 ， 
SQL 环境 被 当 作 某 些 DBMS 的 运行 环境 。 例 如 ，ABC 公 司 买 了 Megatron 2002 DBMS 的 许可 证 
以 便 在 ABC 的 机 器 上 运行 它 ， 于 是 运行 在 这 些 机 器 上 的 系统 组 成 了 SQL 环境 。 

前 面 已 经 讨论 了 数据 库 的 所 有 元 素 一 一 表 、 视 图 、 触 发 器 、 存 储 过 程 等 等 ， 它 们 都 是 在 
SQL 环 境 中 定义 的 。 这 些 元 素 组 成 了 层次 性 结构 ， 每 个 元 素 在 该 结构 中 扮演 了 不 同 的 角色 。 图 
8-15 给 出 了 SQL 的 标准 结构 。 

简短 地 说 ， 该 组 织 方式 由 下 面 的 结构 构成 ， 

1. 模式 9。 模式 是 表 、 视 图 、 断 言 、 触 发 、PSM 模 块 和 其 他 在 书 中 没有 讨论 的 信息 (参见 
8.3.2 节 的 “更 多 模式 元 素 ” 框 ) 的 集合 。 模 式 是 组 织 的 基本 单元 ， 可 近似 地 当 作 “ 数 据 库 ”， 不 
过 事实 上 ， 在 某 种 程度 上 比 数据 库 少 ， 下 面 第 (3 ) 点 可 以 看 到 。 

2. 目录 。 这 是 模式 的 集合 ， 是 用 来 支持 惟一 的 、 可 访问 术语 的 基本 单元 。 每 个 目录 有 一 个 
或 多 个 模式 ， 一 个 目录 中 的 模式 名 必须 是 惟一 的 ， 每 个 目录 包含 一 个 叫 IMFORMRATION 
SCHEMRA 的 特殊 模式 ， 这 个 模式 包含 了 该 目录 中 所 有 模式 的 信息 。 

3. 繁 。 这 是 目录 的 集合 。 每 个 用 户 有 一 个 相 联 的 能 : 用 户 可 访问 的 所 有 目录 的 集合 〈 参见 
8.7 节 解释 如 何 访问 目录 和 其 他 受 控 的 元 素 )。SQL 对 簇 的 定义 不 是 很 严格 ， 例如， 不 同 用 户 相 
联 的 簇 是 否 可 以 重病 并 没有 被 标识 。 簇 是 查询 能 发 布 的 最 大 范围 ， 故 在 一 定 程度 上 ， 簇 是 特定 
用 户 所 看 到 的 “数据 库 ”。 

8.3.2 模式 

模式 声明 的 最 简单 形式 如 下 : 

1. 保留 字 CREATE SCHEMA。 

2. 模式 名 称 。 

3. 模式 元 素 如 基本 表 、 视 图 和 断言 等 的 声明 列表 。 

也 就 是 说 ， 模 式 可 以 声明 为 ; 

CREATE SCHEMA <schema name> <element declarations> 

元 素 声明 采用 的 是 如 6.6 节 、6.7.1 节 和 8.2.1 节 等 不 同 地 方 讨论 的 形式 。 

O ”注意 这 儿 的 术语 “模式 ” 指 的 是 数据 库 模 式 ， 而 不 是 关系 模式 。 
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例 8.17 ”定义 一 个 模式 ， 该 模式 包括 关于 
本 书 一 直 使 用 的 电影 例子 中 的 5 个 关系 ， 加 上 
一 些 其 他 已 经 介绍 的 元 素 ， 如 视图 。 图 8-16 描 
述 了 这 样 的 定义 。 口 

不 必要 一 次 就 将 模式 声明 完全 。 可 以 使 用 
合适 的 CREATE、DROP 或 ALTER 语 句 来 修改 或 
增加 模式 ,例如 ，CREATE TABLE 后 跟随 模式 
的 一 张 新 表 的 定义 。 问 题 是 SQL 系统 需要 知道 
新 表 属 于 哪个 模式 。 如 果 修 改 或 删除 表 或 其 他 
模式 元 素 ， 那 么 由 于 2 个 或 更 多 的 模式 可 以 有 
同名 的 不 同 元 素 ， 故 需要 消除 元 素 名 的 歧义 。 

使 用 SET SCHEMRA 语 名 改变 “当前 ”的 模 
式 。 例 如 ， 


SET SCHEMA MovieSchema; 


将 使 图 8-16 描 述 的 模式 成 为 当前 模式 。 于 是 ， 任 何 模式 元 素 的 定义 被 迫 加 到 该 模式 ， 任 何 
DROP 或 ALTER 语 句 都 是 指 该 模式 中 存在 的 元 素 。 
CREATE SCHEMA MovieSchema 


CREATE TABLE MovieStar ... as in Fig. 7.5 
Create-table statements for the four other tables 









环境 = 
DBMS 的 安装 





图 8-15 环境 下 数据 库 模 式 的 组 织 


CREATE VIEW MovieProd ... asin Example 6.48 
Other view declarations 
CREATE ASSERTION RichPres ... as in Example 7.13 


图 8-16 一 个 模式 声明 





8.3.3 目录 

像 表 一 类 的 模式 元 素 创建 在 模式 中 一 样 ， 模 式 在 目录 中 创建 和 修改 。 原 则 上 ， 和 希望 目录 的 
创建 、 增 加 处 理 与 模式 的 创建 、 增 加 处 理 类 似 。 不 巧 的 是 ，SQL 没 有 定义 一 个 标准 来 这 么 做 ， 
如 语句 


CREATE CATALOG <catalog name> 


使 得 后 面 紧 跟 着 的 是 属于 该 目录 的 模式 列表 和 那些 模式 的 声明 。 
然而 ，SQL 又 规定 了 语句 


SET CATALOG <catalog name> 


这 条 语句 允许 设置 “当前 ”目录 ,这样 的 话 ， 新 的 模式 将 进入 那个 目录 ， 模 式 修改 也 是 对 
那个 目录 中 的 模式 进行 ， 这 时 可 能 有 名 字 冲 突 。 并 且 如 果 存 在 名 字 冲 突 的 话 ， 都 是 指 新 加 入 、 
修改 的 模式 与 当前 目录 冲突 。 







更 多 模式 元 素 
有 些 没有 提 到 的 模式 元 素 偶 尔 也 能 使 用 到 ， 如 ; 

。 域 : 值 或 简单 数据 类 型 集合 。 现 在 很 少 用 到 了 ， 因 为 对 象 -关系 数据 库 提供 了 更 强 
大 的 创建 类 型 的 机 制 ， 参 见 9.4 节 。 . 

(THR: 符号 以 及 如 何 编码 的 方法 的 集合 。ASCII 是 最 著名 的 字符 集 ， 但 是 SOL 工 














BF 


具 可 以 支持 许多 其 他 的 集合 ， 如 不 同 的 外 语 集 。 
。 核 对 : 回忆 6.1.3 节 的 字符 串 按 字典 序 比较 ， 假 定 任 两 个 字符 可 以 用 “小 于 ”关系 
比较 ,“ 小 于 ”被 标识 为 “<"。 核 对 指定 哪些 字符 “小 于 ”另外 哪些 字符 。 例 如 ， 


可 以 用 ASCIH 隐 含 的 顺序 进行 比较 ; 或 可 以 把 小 写 和 大 写字 符 看 做 是 一 样 的 ; 不 比 
较 非 字母 的 字符 。 
。 授 权 语 句 : 它 关 心 的 是 谁 可 以 访问 模式 元 素 。8.7 节 将 讨论 授权 优先 级 问题 。 


8.3.4 SQL 环境 中 的 客户 和 服务 器 

SQL 环境 不 仅仅 是 目录 和 模式 的 集合 。 它 还 包含 这 样 的 元 素 : 元 素 的 目的 是 支持 数据 库 上 
操作 或 者 是 那些 目录 和 模式 代表 的 数据 库 中 的 操作 。SQL 环 境 有 两 种 特殊 的 进程 : SQL 客户 和 
服务 器 。 服 务 器 支持 对 数据 库 元 素 的 操作 ， 客 户 允 许 用 户 连 接 到 服务 器 上 对 数据 库 进行 操作 。 
可 以 这 样 想像 : 服务 器 运行 在 一 个 大 的 存储 数据 库 的 主机 上 ,客户 运行 在 其 他 主机 上 ， 也 许 是 
远离 服务 器 的 个 人 工作 站 。 然 而 ， 也 可 能 是 客户 和 服务 器 都 运行 在 一 台 主 机 上 。 
8.3.5 连接 

如 果 在 SQL 客户 端 主机 上 运行 包含 了 SQL 的 程序 ， 那 么 将 通过 下 面 的 SQL 语句 打开 客户 和 
服务 器 之 间 的 连接 : 





模式 元 素 的 全 名 
形式 上 ， 模 式 元 素 (如 表 ) 的 名 称 是 它 的 目录 名 ， 它 的 模式 名 和 它 自己 的 名 称 ， 并 
以 这 种 顺序 用 点 连接 表示 。 因 此 ， 目 录 MovieCatalog 中 的 模式 MovieSchema 的 表 
Movie 的 引用 如 下 : 


MovieCatalog.MovieSchema. Movie 

如 果 目 录 是 缺 省 的 或 是 当前 的 目录 ， 那么 可 以 省 去 目录 名 。 如 果 模 式 也 是 缺 省 的 或 
当前 的 模式 ， 那 么 模式 部 分 也 可 以 省 去 ， 只 留 下 元 素 自 己 的 名 称 是 很 经 常 的 。 然 而 ， 当 
需要 访问 当前 模式 或 目录 以 外 的 元 素 时 ， 就 不 得 不 使 用 完全 名 。 





CONNECT TO <server name> AS <connection name> 
AUTHORIZATION <name and password> 


服务 器 名 依赖 于 安装 。 单 词 DEFAULT 可 以 蔡 代 一 个 名 称 且 将 用 户 连接 到 任何 被 作为 “ 缺 
省 服务 器 ”安装 的 SQL 服务 器 。 授 权 子 句 后 跟随 着 用 户 名 和 密码 。 虽 然 AUTHORIZATION 后 可 
以 跟随 其 他 的 字符 串 ， 但 密码 是 服务 器 识别 用 户 的 常见 方式 。 

连接 名 可 以 在 以 后 用 来 引用 连接 。 引 用 连接 的 原因 是 SQL 人 允许 用 户 打 开 好 几 个 连接 ， 但 是 
任何 时 候 只 有 一 个 连接 有 效 。 为 了 切换 连接 ， 下 面 的 语句 将 conn1 变 成 为 有 效 连接 ; 

SET CONNECTION conni; 


任何 当前 有 效 的 连接 进入 休眠 状态 后 ， 只 有 显 式 提 到 它 的 另 一 条 SET CONNECTIONS AJ 
才能 激活 它 。 

当 断 开 连 接 时 也 要 用 连接 名 。 断 开 连 接 conn1 的 语句 如 下 : 

DISCONNECT conni; 


现在 ，conn1 被 中 止 。 它 不 是 休眠 ， 也 不 能 被 激活 。 
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然而 ， 如 果 连 接 创 建 后 再 也 不 被 引用 ， 那 么 CONNECT TO 子 句 中 的 AS 和 连接 名 可 以 省 上 略 。 
完全 省 略 连接 语句 也 是 可 以 的 。 如 果 仅 仅 在 
SQL 客户 端的 宿主 机 上 执行 SQL 语句 ， 那 么 可 
以 为 自己 建立 一 个 缺 省 的 连接 。 
8.3.6 会 话 

连接 有 效 时 ， 执 行 的 SQL 操作 形成 了 一 个 
会 话 。 会 话 和 创建 它 的 连接 具有 状态 同时 改变 
的 特点 。 例 如 ， 当 连接 处 于 休眠 状态 时 ， 它 的 
会 话 也 处 于 休眠 态 ，sSET_ CONNECTION 语 句 
对 连接 的 恢复 也 使 会 话 重 新 有 效 。 因 此 ， 会 话 
和 连接 是 客户 和 服务 器 之 间 链 路 的 两 个 方面 ， 
见 图 8-17。 

每 个 会 话 有 一 个 当前 目录 和 该 目录 中 的 一 
个 当前 模式 。 这 由 语句 SET SCHEMA 和 SET CATALOG 设 置 , 和 8.3.2 节 和 8.3.3 节 中 讨论 的 一 样 。 
每 个 会 话 也 都 有 一 个 授权 用 户 ， 对 此 将 在 8.7 节 讨论 。 
8.3.7 模块 

模块 《module ) 是 对 应 用 程序 而 言 的 SQL 术语 。SQL 标 准 建议 了 三 种 模块 ， 要 求 一 个 SQL 
的 实现 中 至 少 提供 一 种 给 用 户 。 

1. 基本 SQL 有 界面。 用 户 可 以 键 人 SQL 服务 器 执行 的 SQL 语句 。 这 种 模式 下 ， 每 个 查询 或 其 
他 语句 本 身 是 一 个 模块 。 虽 然 这 种 模式 实际 上 很 少 使 用 ， 但 是 本 书 中 大 多 数 例子 都 是 这 种 模块 。 

2. 谈 套 SQL。 这 种 类 型 已 在 8.1 节 讨论 过 ， 由 EXEC soL 引 导 的 SQL 语句 出 现在 宿主 语言 
序 中 。 预 处 理 器 将 这 个 艇 套 SQL 语句 转变 为 对 SQL 系统 的 对 应 函数 或 过 程 的 调用 。 编 译 后 的 宿 
主语 言 程序 (包括 这 些 函 数 调 用 ) 是 一 个 模块 。 

3. 真 模块 。SQL 设 想 模 块 的 最 一 般 形 式 是 一 个 含有 存储 函数 或 过 程 集合 的 模块 ， 这 些 函 数 
或 过 程 一 部 分 是 宿主 语言 代码 ， 一 部 分 是 SQL 语 句 。 它 们 之 间 可 以 通过 参数 也 可 以 通过 共享 变 
量 进行 通讯 。PSM 模 块 (8.2 节 ) 就 是 这 样 的 一 个 例子 。 

模块 的 执行 被 称 为 SQL 代理 。 图 8-17 中 模块 和 SQL 代理 组 成 一 个 单元 ， 它 调用 SQL 客户 建 
立 与 数据 库 的 连接 。 然 而 ， 模 块 和 SQL 代理 的 区 别 与 程序 和 进程 的 区 别 相似 : 前 者 是 代码 ， 后 
者 是 代码 的 执行 。 


8.4 使 用 调用 层 接 口 


这 一 节 回 到 SQL 操 作 和 宿主 语言 程序 协调 的 问题 。8.1 节 中 讨论 了 幅 套 SQL; 8.2 节 中 讨论 
了 存储 在 模式 中 的 过 程 。 本 节 中 ， 采 用 第 三 种 方法 。 使 用 调用 层 界 面 ( CLI ) 时 ， 只 要 编写 普 
通 的 宿主 语言 代码 ， 并 使 用 可 连接 和 访问 数据 库 的 函数 库 ， 就 可 把 SQL 语句 传递 到 数据 库 。 

这 种 方法 和 能 套 SQL 编 程 的 区 别 在 某 种 程度 上 说 是 表面 上 的 。 如 果 观 察 了 预 处 理 器 对 舱 套 
SQL 语句 的 处 理 ， 那 么 就 会 发 现 这 些 语 句 被 库 函 数 调 用 所 代替 ， 库 函数 很 像 标 准 SQL/CLI 中 的 
函数 。 然 而 ， 当 SQL 被 CLI 函 数 直接 传递 到 数据 库 服务 器 时 ， 就 获得 了 一 定 级 别 的 系统 独立 。 
也 就 是 说 ， 原 则 上 可 以 在 使 用 不 同 DBMS 的 多 个 站 点 运行 相同 的 宿主 语言 程序 。 只 要 这 些 
DBMS 接 受 标准 SQL ( 不 妙 的 是 ， 不 总 是 这 种 情况 )， 那 么 相同 的 代码 可 以 在 所 有 这 些 站 点 运 
行 ， 而 不 需要 特别 设计 的 预 处 理 器 。 

















图 8-17 SQL 客户 -服务 器 的 交互 图 
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下 面 给 出 调用 层 界面 的 两 个 例子 。 本 节 考 虑 标准 SQL/CLI, 它 是 ODBC ( 开放 数据 库 连 接 ) 
的 变型 。8.5 节 讨论 JDBC (Java 数据 库 连 接 )， 一 个 类 似 的 标准 ， 它 以 面向 对 象 的 方式 将 Java 
程序 连接 到 数据 库 。 对 这 两 种 情况 ， 本 书 都 没有 给 出 全 部 标准 ， 而 只 是 显示 与 本 书 讨论 相关 
的 内 容 。 

8.4.1 SQUCLI 简 介 

FACAISQLICLI ( 以 后 只 写 CLI) 编写 的 程序 包括 头 文件 sqlc1i .h， 从 而 得 到 大 量 的 函数 、 
类 型 定义 、 结 构 和 符号 常量 。 这 样 程序 可 以 创建 和 处 理 四 种 记录 ( C 中 称 做 结构 ): 

1. 环境 记录 ”这 种 类 型 的 记录 由 应 用 (客户 ) 程序 创建 ， 为 对 数据 库 服务 器 的 一 个 或 多 个 
连接 做 准备 。 

2. 连接 记录 这 种 记录 创建 的 目的 是 连接 应 用 程序 和 数据 库 。 每 个 连接 记录 要 存在 于 某 个 
环境 记录 中 。 

3. 语句 记录 ”应 用 程序 可 以 创建 一 个 或 多 个 语句 记录 。 每 个 语句 记录 保存 了 一 条 有 关 SQL 
语句 的 信息 ， 如 果 语 句 是 一 个 查询 则 还 包括 隐 含 的 游标 。 不 同时 刻 ， 同 一 个 的 CLI 语 句 代表 不 
同 的 SQL 语句 。 每 条 CLI 语 句 存在 于 某 一 连接 记录 中 。 


环境 记录 和 语句 记录 的 内 容 是 什么 ? 

我 们 不 审查 代表 环境 和 连接 的 记录 的 内 容 。 可 是 ， 有 些 有 用 的 信息 包含 在 这 些 记录 
的 字段 中 。 这 些 信息 一 般 不 是 标准 的 一 部 分 ， 而 是 依赖 于 实现 。 不 过 ， 作 为 一 个 例子 ， 
环境 记录 需要 指明 字符 串 如 何 表示 ， 例 如 ，C 语 言 中 以 : \0， 表示 结束 或 定 长 字符 串 等 。 


4. 描述 记录 ”这 种 记录 保存 元 组 或 参数 的 信息 。 应 用 程序 或 数据 库 服务 器 适当 地 设置 描述 
记录 的 组 成 成 分 , 以 指定 属性 或 属性 值 的 名 称 和 类 型 。 每 条 语句 都 有 一 - 些 隐 式 创建 的 描述 记录 ， 
用 户 需 要 时 可 创建 更 多 。 在 CLI 的 表示 中 ， 描 述 记录 一 般 都 是 不 可 见 的 。 

每 个 记录 在 应 用 程序 中 是 用 句柄 来 表示 ， 句柄 是 记录 的 指针 ? 。 头 文件 sqlc1i .bh 分 别提 
供 了 环境 记录 、 连 接 记录 、 语 句 记 录 和 描述 记录 的 句柄 类 型 : SoLHENV、sorHDBC、 
SQLHSTMT 和 SQLHDESC， 虽 然 它们 都 被 看 做 是 指针 或 整 型 。 除 了 使 用 这 些 类 型 外 ， 另 外 还 使 
用 其 他 有 明显 含义 的 定义 类 型 ， 如 sqlcl1i.h 中 提供 的 SoOLCHAR 和 SOLINmEGER 。 

在 此 不 详细 讨论 如 何 设置 和 使 用 描述 记录 。 然 而 ， 其 他 三 种 记录 的 句柄 是 用 如 下 语句 创建 ; 

SQLA110cHand1 e(hType,hIn,hOut) 








这 里 有 三 个 参数 : 

1. h7ype 是 所 希望 的 句柄 类 型 。sQI_HANDLE_ENV 表 示 一 个 新 的 环境 ; SQL HANDLE 
DBC 表 示 一 个 新 的 连接 ; seQL_HANDLE_sSTMT 表 示 一 个 新 的 语句 。 

2. hIn 是 高 层 元 素 的 处 理 ， 该 高 层 元 素 存放 了 新 近 分 配 的 元 素 。 如 果 要 得 到 一 个 环境 句柄 ， 
该 参数 就 是 SQL_NULL_HANDLE。 这 是 一 个 常量 ， 告 诉 SQLA11ocHand1e 这 里 没有 相关 值 。 
如 果 要 得 到 连接 句柄 ， 那 么 hin 是 该 连接 所 在 环境 的 句柄 。 如 果 要 得 到 语句 句柄 ， 那 么 hin 是 语 
名 所 在 连接 的 句柄 。 

3. hOut 是 SQLA11ocHand1le 所 创建 的 处 理 的 地 址 。 

SQLAllocHand1le 返 回 一 个 SQLRETURN (一 个 整数 ) 类 型 的 值 。 值 是 0 表示 没有 错误 发 
生 ， 发 生 错误 时 返回 某 一 非 零 值 。 


O 不 要 将 此 处 术语 “句柄 ”的 用 法 与 8.2.7 节 讨论 的 例外 处 理 混淆 。 
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CLI 中 开始 的 。 这 个 函数 检查 了 MovieExec 的 所 有 元 组 ， 将 他 们 的 净 产 值 分 成 不 同 范围 。 最 初 
的 步骤 见 图 8-18。 

1) #include sqlcli.h 
2) SQLHENV myEnv; 
3) SQLHDBC myCon; 


4) SQLHSTNT execStat; 
5) SQLRETURN errorCode1, errorCode2, errorCode3; 


6) errorCodei = SQLAllocHandle(SQL_HANDLE_ENV, 
SQL_NULL_HANDLE, &myEnv) ; 

7) if (lerrorCode1) 

8) errorCode2 = SQLAllocHandle(SQL_HANDLE_DBC, 
myEnv, &myCon) ; 

9) if (!errorCode2) 

10) errorCode3 = SQLAllocHandle(SQL_HANDLE_STMT, 
myCon, &execStat) ; 


图 8-18 定义 和 创建 环境 、 连 接 和 语句 记录 
第 2 行 到 第 4 行 分 别 声 明了 环境 、 连 接 和 语 名 的 句柄 。 它 们 的 名 称 分 别 为 nyEgnv，mycon 和 
execStat。execStat 代 表 SQL 语 句 ， 


SELECT netWorth FROM MovieExec; 


很 像 图 8-4 中 游标 execcursor 所 做 的 ， 但 是 目前 还 没有 与 sxecStat 相 连 的 SQL 语句 。 第 5 行 
声明 3 个 变量 ， 存 放 函 数 调用 的 结果 并 指明 出 现 的 错误 。 值 0 表示 调用 过 程 中 没有 出 现 错误 ， 这 
正 是 所 希望 的 情况 。 

第 6 行 调用 SsQLA11ocHandle， 需 要 一 个 环境 处 理 (第 一 个 参数 )， 第 二 个 参数 提供 一 个 
空 句 柄 ( 因为 当 请 求 环境 句柄 时 ， 什 么 都 不 需要 )， 提 供 地 址 myBnv 作 为 第 三 个 参数 ， 产 生 的 
句柄 放 在 此 处 。 如 果 第 6 行 成 功 ， 第 7 行 和 第 8 行 用 环境 句柄 来 得 到 连接 句柄 mycon。 假 定 这 个 
调用 也 成 功 ， 第 9 行 和 第 10 行 获得 语句 句柄 execStat。 器 
8.4.2 ”处理 语句 

图 8-18 的 结尾 ， 句 柄 是 execstat 的 语句 记录 已 经 被 创建 。 不 过 ， 还 没有 该 记录 相 联 结 的 
SQL 语句 。 使 用 语句 句柄 来 联结 和 执行 SQL 语句 的 处 理 与 8.1.10 节 描述 的 动态 SQL 相似 。8.1.10 
TE 和 SQL 请 林 的 内 容 与 所 请 的 “SQL 变量 ”联结 ， 接 着 使 用 EXECUTE 执 行 

条 语句 。 
如 果 将 “SQL 变量 ”作为 语句 句柄 ， 则 CLI 中 的 情况 十 分 相似 。 函 数 


SOLPrepare(sh,st,sl) 











BA: 

1. 语句 记录 句柄 sh。 

2. 指向 SQL 语句 的 指针 st。 

3. 51 指 向 的 字符 串 的 长 度 s.。 如 果 不 知道 长 度 ， 定 义 过 的 常量 sor_NTS 将 通知 SQLPre- 
pare 从 字符 串 本 身 计 算出 长 度 。 或 许 ， 该 串 是 个 “以 nul 结 束 的 字符 串 "， 这 样 SoLPrepare 
可 以 扫描 这 个 字符 串 直 至 遇 到 结束 符 ' \0 "。 

该 函数 的 影响 是 使 得 被 句柄 sj 引用 的 语句 现在 代表 特定 的 SQL 语句 sz。 


w 
© 
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另 一 个 函数 


SQLExecute (sh) 
引起 句柄 sh 涉及 的 语句 的 执行 。 对 于 很 多 形式 的 SQL 语 句 ， 如 插入 和 删除 ， 这 条 语句 的 执 
行 对 数据 库 的 影响 是 显而易见 的 。 当 sh 涉及 到 的 SQL 语 句 是 一 个 查询 语句 时 其 影响 就 不 是 那么 
明显 。 如 8.4.3 节 所 讨论 的 ， 该 类 查询 语句 有 一 个 隐 含 的 游标 ， 它 是 语句 记录 的 一 部 分 。 语 句 原 
则 上 被 执行 ， 所 以 可 以 想像 所 有 返回 的 元 组 存放 在 某 个 位 置 ， 等 待 着 被 访问 。 使 用 隐 式 游标 每 
次 可 以 读 取 一 个 元 组 ， 这 与 8.1 节 和 8.2 节 使 用 真实 游标 所 做 的 差不多 。 
例 8.19 继续 图 8-18 开 始 的 函数 worthRanges。 查 询 语句 


SELECT netWorth FROM MovieExec; 
与 处 理 execStat 涉 及 语句 的 联结 可 以 用 下 面 两 个 函数 的 调用 实现 : 
11) SQLPrepare(execStat, "SELECT netWorth FROM MovieExec", 
SQL_NTS) ; 
12) SQLExecute(execStat) ; 
它们 可 以 紧 接 在 图 8-18 的 第 10 行 之 后 。 记 住 SQL_NTS 通 知 SQLPrepare 确 定 它 第 二 个 参 
数 所 指 的 以 null 结 束 的 字符 串 的 长 度 。 口 


与 动态 SQL 相似 ， 使 用 函数 SQLExecDirect 可 以 将 准备 和 执行 步骤 合 二 为 一 。 合 并 上 面 

第 11 行 和 第 12 行 的 一 个 例子 如 下 : 
SQLExecDirect (execStat, "SELECT netWorth FROM MovieExec", 
SQL_NTS) ; 
8.4.3 从 查询 结果 中 取 数 据 
与 对 套 SQL 或 PSM 中 FETCH 命 令 相 当 的 函数 是 
SQLFetch (sh) 

这 里 sh 是 一 个 语句 句柄 。 假 定 sh 涉 及 的 语句 已 经 被 执行 ， 或 者 这 个 取 数 据 操作 将 产生 一 个 
错误 。 像 所 有 的 CLI 函 数 一 样 ，SQLFetch 返 回 一 个 表明 成 功 或 失败 的 SQLRETURN 类 型 的 值 。 
特别 应 该 关注 符号 常量 SQL_NO_DATA 代 表 的 返回 值 ， 它 表示 查询 结果 中 不 再 有 元 组 。 如 同 以 
前 读数 据 的 例子 ， 这 个 值 用 来 跳出 从 查询 结果 中 重复 取 新 元 组 的 循环 。 

然而 ， 如 果 图 8-19 中 SQLExecute 后 跟随 一 个 或 更 多 的 SQLFetch 调 用 ， 那 么 元 组 是 否 会 
出 现在 此 ? 答案 是 其 组 成 部 分 存 人 了 一 个 描述 记录 中 ， 该 记录 与 句柄 出 现在 SQLFetch 调 用 中 
的 语句 相 联 结 。 在 每 次 取 数 据 时 ， 可 以 通过 在 开始 取 数 据 之 前 把 组 成 部 分 绑 定 到 宿主 语言 变量 
. 来 抽取 相同 的 组 成 部 分 。 完 成 这 个 工作 的 函数 是 : 

SQLBindCol (sh,colNo,colType,p Var, varsize, varInfo) 

这 六 个 参数 的 意义 为 : 

1. Sh 是 所 涉及 到 的 语句 的 句柄 。 

2. ColINo 是 要 得 到 获取 值 的 (元 组 内 部 ) 组 成 部 分 的 数目 。 

3. colType 是 一 个 代码 ， 表 示 存 放 组 成 部 分 值 的 变量 类 型 。 由 sqlc1li .h 提 供 的 代码 
SQL_CHAR 表 示 字 符 数 组 和 字符 串 ; SoL_INTEGER 表 示 整 型 。 

4. pVar 是 一 个 指针 ， 指 向 存放 值 的 变量 。 

5. varsize 是 pVar 指 向 的 变量 值 的 字 节 长 度 。 








SOLHAR xm 


6. varmajp 是 一 个 整 型 指针 ，SQLBinaco1 用 于 提供 关于 产生 值 的 附加 信息 。 

例 8.20 ”用 CLI 调 用 代替 向 套 SQL， 重 写 图 8-4 中 的 整个 函数 worthRanges。 开 始 时 如 图 
8-18， 不 过 为 了 简明 的 缘故 ， 省 去 了 所 有 的 错误 检查 ， 只 保留 了 测试 SQLFetch 是 否 表明 目前 
没有 更 多 的 元 组 。 代 码 见 图 8-19。 


1) #include sqlcli.h 
2) void worthRanges() { 


3) int i, digits, counts[15]; 
4) SQLHENV myEnv; 

5) SQLHDBC myCon; 

6) SQLHSTMT execStat; 

7) SQLINTEGER worth, worthInfo; 


8) SQLAllocHandle(SQL_HANDLE_ENV, 
SQL_NULL_HANDLE, &myEnv) ; 
9) SQLAllocHandle(SQL_HANDLE_DBC, myEnv, &myCon); 


SQLAllocHandle(SQL_HANDLE_STMT, myCon, &execStat) ; 
SQLPrepare(execStat, 

"SELECT netWorth FROM MovieExec", SQL_NTS); 
SQLExecute(execStat); 
SQLBindCol(execStat, 1, SQL_INTEGER, &worth, 

size(worth), &worthInfo); 
while(SQLFetch(execStat != SQL_NO_DATA) { 

digits = 1; f 

while((worth /= 10) > 0) digits++; 

if (digits <= 14) counts[digits]++; 


for(i=0; i<15; i++) 
printf ("digits = %d: number of execs = %d\n", 
i, counts[i]); 





图 8-19 出 品 人 净 产 值 分 组 : CLI 版 本 


用 seLGetDpata 抽 取 组 成 部 分 
另外 一 种 将 程序 变量 绑 定 到 查询 结果 关系 输出 上 的 方式 是 不 作 任何 绑 定 地 读 取 元 组 ， 


然后 在 需要 时 再 将 组 成 部 分 转化 为 程序 变量 。 使 用 的 函数 是 SOLGetData， 它 的 参数 与 
SQLBindCol 相 同 。 不 过 ， 它 只 复制 一 次 数据 ， 并 且 必 须 在 读 取 数 据 之 后 使 用 ， 这 样 才 
能 和 开始 时 就 把 列 绑 定 到 变量 产生 相同 的 作用 。 





图 中 第 3 行 声 明了 与 租 套 SQL 版 本 中 函数 使 用 的 局 部 变量 相同 的 局 部 变量 ,第 4 行 到 第 7 行 
为 sqlc1i .h 提 供 的 类 型 声明 附加 的 局 部 变量 ， 这 些 变量 都 是 与 SQL 相关 的 变量 。 第 4 行 到 第 6 
行 与 图 8-18 中 相同 。 不 同 的 是 第 7 行 新 加 了 worth (对 应 于 图 8-4 中 的 同名 共享 变量 ) 和 
worthInfo 的 声明 ， 这 是 SQLBindCcol 所 要 求 却 没有 用 到 的 。 

第 8 行 到 第 10 行 如 图 8-18 分 配 所 需 的 句柄 ， 第 11 行 和 第 12 行 准备 和 执行 SQL 语句 ， 与 例 8.19 
所 讨论 的 相同 。 在 第 13 行 ， 查 询 结果 的 第 一 列 ( 也 是 惟一 的 列 ) 被 绑 定 到 变量 worth。 第 一 个 
参数 是 语句 所 涉及 的 句柄 ， 第 二 个 参数 是 涉及 到 的 列 ， 本 例 中 是 1。 第 三 个 参数 是 列 的 类 型 ， 
第 四 个 参数 是 一 个 指针 ， 指 向 值 所 放 的 位 置 ， 即 变量 worth。 第 五 个 参数 是 变量 的 长 度 ， 最 后 
一 个 参数 指向 wor thInfo， 是 为 SQLBindcol 放 置 附加 信息 (此 处 没有 用 到 ) 的 地 方 。 

函数 的 计算 与 图 8-4 的 第 11 行 和 第 19 行 十 分 相近 。While 循 环 开始 于 图 8-19 的 第 14 行 。 注 意 : 


Go 
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读 取 一 个 元 组 并 检验 是 否 超出 元 组 范围 的 工作 ， 都 是 在 第 14 行 的 while 循 环 条 件 中 。 如 果 存 在 
一 个 元 组 ， 那 么 第 15 行 到 第 16 行 确定 整数 ( 被 绑 定 为 worth ) 的 位 数 并 将 合适 的 计数 加 1。 循 
环 结束 后 ， 也 就 是 ， 第 12 行 语句 执行 所 返回 的 所 有 元 组 已 经 被 检查 过 ， 第 18 行 和 第 19 行 输出 计 
算 的 结果 。 o 


8.4.4 向 查询 传递 参数 

骨 套 SQL 使 得 SQL 语句 可 以 执行 ， 而 且 语句 的 一 部 分 可 以 是 由 当前 共享 变量 决定 的 值 组 成 。 
CLI 有 相似 的 能 力 ， 但 是 更 复杂 。 所 需 的 步骤 如 下 : 

1. 用 SQLPrepare 准 备 一 条 语句 ， 该 语句 的 某 些 称 为 参数 的 部 分 用 问号 取代 。 第 i 个 问号 
代表 第 ;个 参数 。 

2. 使 用 函数 sSoLBindParametezr 将 值 绑 定 到 问号 上 。 这 个 函数 有 十 个 参数 ， 只 解释 其 中 
所 必需 的 。 

3. 通过 调用 SoLExecute 来 执行 带 绑 定 的 查询 。 注 意 如 果 改 变 了 一 个 或 多 个 参数 的 值 ， 那 
么 需要 再 次 调用 SQLExecute。 . 

下 面 的 例子 将 解释 这 个 过 程 ， 并 指出 SOLBindParameter 所 需 的 重要 参数 。 

例 8.21 重新 考虑 图 8-2 的 嵌 套 5SQL 代 码 ， 在 那个 图 中 得 到 了 两 个 变量 studioName 和 
studioAddr 的 值 ， 并 将 它们 作为 插入 到 studio 元 组 的 组 成 部 分 。 图 8-20 描 述 了 这 个 过 程 在 
CLI 中 是 如 何 工作 的 。 它 假定 对 于 插入 语句 有 一 个 语句 句柄 mystat 可 供 使 用 。 

IGM IRA s tudioNamefils tudioAddr iia (图 中 没有 给 出 步骤 ) 开始 。 第 1 行 语句 
myStat 准 备 一 条 插入 语句 ， 该 插入 语句 是 带 有 两 个 参数 ( 问号 ) 的 VALUE 子 句 。 接 着 ,第 2 
行 和 第 3 行 分 别 绑 定 第 一 个 和 第 二 个 问号 至 studioName 和 studioAddr 的 当前 内 容 。 最 后 ， 
第 4 行 执行 插入 语句 。 如 果 图 8-20 中 步 又 的 整个 序列 ， 包 括 没 写 出 的 赋 给 s tudioName 和 
studioadqdr 新 值 的 工作 ,被 置 于 一 个 循环 中 ， 那 么 每 执行 一 次 循环 ， 一 个 带 有 制 片 厂 新 名 称 
和 地 址 的 新 元 组 就 被 插 人 到 Scudio 中 。 口 





/* get values for studioName and studioAddr */ 


SQLPrepare(myStat, 
“INSERT INTO Studio(name, address) VALUES(?, 7)", 
SQL_NTS); 
SQLBindParameter (myStat, 1 studioName,...); 
SQLBindParameter (myStat 2 studioAddr,...); 
SQLExecute(myStat) ; 


图 8-20 通过 将 参数 绑 定 到 值 来 插 人 一 个 新 的 studio 





8.4.5 习题 
习题 8.4.1 使 用 带 有 CLI 调 用 的 C 语 言 重 做 习题 8.1.1。 
习题 8.4.2 ”使 用 带 有 CLI 调 用 的 C 语 言 重 做 习题 8.1.2。 


8.5 ” Java 数据 库 连 接 


JDBC 表 示 “Java Database Connectivity”"， 它 是 一 个 与 CLI 类 似 的 软 设备 ， 允许 Java 程 序 访 
问 SQL 数 据 库 。 内 容 与 CLI 十 分 相似 ， 只 是 JDBC 中 Java 的 面向 对 象 的 特性 非常 明显 。 
8.5.1 JDBC 简 介 

使 用 JDBC 首 先 要 做 以 下 工作 : 


{ 
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1. 加 载 将 要 使 用 的 数据 库 系统 的 “驱动 器 " 。 这 一 步 可 能 依赖 于 安装 和 实现 。 然 而 ， 结 果 
产生 了 一 个 叫做 DriverManager 的 对 象 。 这 个 对 象 在 很 多 方面 与 使 用 CLI 时 的 环境 相近 ， 那 
时 第 一 步 得 到 的 是 环境 的 句柄 。 

2. 建立 与 数据 库 的 连接 。 如 果 将 方法 getConnection 应 用 到 DriverManager， 那 么 就 
创建 了 一 个 connection 类 型 的 变量 。 

创建 连接 的 Java 语 句 如 下 : 


Connection myCon = DriverManager .getConnection(<URL>, 
<name>, <password>); 


也 就 是 说 ， 方 法 getCconnection 将 希望 连接 的 数据 库 的 URL、 用 户 名 和 密码 作为 参数 。 
它 返 加 connection 类 型 的 对 象 ， 对 象 名 称 是 myCon。 注 意 Java 的 风格 ,在 一 条 语句 中 指定 
myCon 类 型 和 值 。 

这 个 连接 和 CLI 连 接 非常 相似 ， 而 且 它 们 的 目的 相同 。 通 过 把 合适 的 方法 应 用 到 诸如 
myCon 的 连接 中 ， 可 以 创建 语句 对 象 。 将 SQL 语 句 “ 置 人 ”这 些 对 象 ， 然 后 将 值 绑 定 至 SQL 语 
名 参数 。 执 行 SQL 语句 并 且 逐 个 检查 元 组 。 既 然 JDBC 和 CLI 之 间 的 区 别 更 多 的 在 于 语法 而 不 是 
语义 ,那么 只 需 简 要 氢 述 这 些 步骤。 

8.5.2 JDBC 中 的 创建 语句 

为 了 创建 语句 ， 有 两 种 方法 可 以 施加 于 一 个 连接 。 它 们 的 名 字 相 同 ， 但 是 参数 数量 不 同 ; 

1. createStatement () 返 回 Statement 类 型 的 对 象 。 该 对 象 没有 相关 的 SQL 语句 ， 所 
以 方法 createStatement () 被 认为 与 CLI 中 SQLA11ocHandle 的 调用 相似 ,该 调用 接受 一 
个 连接 句柄 ， 返 回 一 个 语句 句柄 。 

2. createStatement (Q) &llprepareds tacerment 类 型 的 对 象 ， 此 处 2 是 一 个 作为 字 
符 串 被 传递 的 SQL 查询 。 因 此 ，JDBC 中 createstatement (Q) 的 执行 和 两 个 CLI 步 骤 的 执行 
相似 ， 这 两 个 CLI 步 又 是 使 用 SoLAL11ocHandle 得 到 一 个 语句 句柄 ， 接着 在 这 个 句柄 和 查询 QO 
中 应 用 SQLPrepare。 

有 4 种 不 同 的 执行 SQL 语 句 方 法 。 像 上 述 的 方法 ， 它 们 的 区 别 在 于 是 否 接受 一 个 语句 作为 
参数 。 不 过 ， 这 些 方 法 在 查询 和 其 他 SQL 语句 之 间 有 区 别 ， 其 他 SQL 语句 统称 为 “更 新 "”。 注 
意 SQL 中 UPDaATE 语 句 仅 是 TDBC 中 术语 “更 新 ”的 一 个 实例 。JDBC 中 的 更 新 包括 所 有 修改 语 
人 名， 其 中 有 插入 语句 、 所 有 模式 相关 语句 如 CREATE TABLE。 这 四 种 “执行 ”方法 是 : 

a) executeQuery (8) 输 入 参数 是 查询 语句 OQ， 用 于 Statement 对 象 。 这 种 方法 返回 
ResultSet 类 型 的 对 象 ， 它 是 查询 Q 得 到 的 元 组 的 集合 (准确 地 说 是 包 )。8.5.3 节 中 将 看 到 如 
何 访 问 这 些 元 组 。 

b) executeQuery () 被 用 于 PreparedStatement 对 象 。 既 然 准 备 语句 已 经 含有 相关 的 
查询 ， 故 没有 参数 。 这 种 方法 也 返回 ResultSet 类 型 的 对 象 。 

c) executeUpdate (0) 接受 非 查 询 语句 V。 当 应 用 到 Statement 对 象 时 ， 执行 U。 语 句 
只 对 数据 库 产生 影响 ,没有 结果 集 返 回 。 

d) executeUpdate () 没有 参数 ， 用 在 Preparedstatement 中 。 在 这 种 情况 下 ， 执 行 
与 准备 语句 相关 的 SQL 语句 。 这 条 SQL 语句 当然 不 能 是 查询 语句 。 

例 8.22 ”假定 有 一 个 连接 对 象 mycon ， 和 希望 执行 查询 : 


SELECT netWorth FROM MovieExec; 


一 种 方法 是 创建 execStat 语 句 对 象 ， 接 着 用 它 直 接 执行 查询 。 结 果 集 被 置 于 Result- 
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Set 类 型 的 对 象 Worths 中 ，8.5.3 节 将 看 到 如 何 对 净 产 值 进行 平方 和 处 理 。 完 成 这 个 任务 的 
Java 代 码 如 下 : 


Statement execStat = myCon.createStatement (); 
ResultSet Worths = execStat.executeQuery( 
"SELECT netWorth FROM MovieExec"); 


另 一 种 方法 是 立即 准备 查询 然后 再 执行 查询 。 与 CLI 中 情形 相 类 似 ， 如 果 要 重复 地 执行 相 
同 的 查询 ， 这 种 方法 更 可 取 。 它 只 做 一 次 准备 但 是 多 次 执行 ， 而 不 需要 DBMS 重 复 准 备 相同 的 
查询 。 遵 循 这 种 方法 的 JDBC 所 需 步 又 是 ; 

PreparedStatement execStat = myCon.createStatement ( 


"SELECT netWorth FROM MovieExec"); 
ResultSet Worths = execStat.executeQuery(); 


口 


例 8.23 如果 要 执行 一 个 无 参 的 非 查询 ,那么 两 种 风格 的 执行 步 又 相似 。 不 过 没有 结果 集 。 
例如 ， 假 定 想 把 如 下 事件 插入 到 starsIn 中 : 2000 年 Denzel Washington 出 演 Remember the 
Titans。 可 以 用 下 面 两 种 方式 中 的 任 一 种 来 创建 和 使 用 语句 starstat: 


Statement starStat = myCon.createStatement(); 
starStat .executeUpdate("INSERT INTO StarsIn VALUES(" + 
"Remember the Titans’, 2000, Denzel Washington’)"); 


或 是 
PreparedStatement starStat = myCon.createStatement ( 
"INSERT INTO StarsIn VALUES(’Rémember the Titans’," + 


"2000, ’Denzel Washington’)"); 
starStat.executeUpdate() ; 


注意 ， 每 个 Java 语 句 序列 都 利用 了 “+” 是 一 个 连接 字符 串 的 Java 算 符 这 一 事实 。 因 此 ,在 
必要 时 能 够 将 Java 中 的 SQL 语句 扩展 为 多 行 。 口 


8.5.3 JDBC 中 的 游标 操作 

当 执行 查询 得 到 一 个 结果 集 对 象 时 ， 可 以 运行 一 个 游标 遍历 结果 集 的 元 组 。 为 达到 这 个 目 
的 ， 类 ResultSset 提 供 了 如 下 有 用 的 方法 ; 

1. Next () ， 当 将 其 应 用 到 结果 集 对 象 中 时 ， 引 起 隐 式 游标 移 向 下 一 个 元 组 〈 对 第 一 个 元 
组 ， 它 是 第 一 次 应 用 )。 如 果 没 有 下 一 个 元 组 了 ， 这 种 方法 返回 FALSE。 

2. getString (i), getInt (i)、getFloat (i)， 以 及 类 似 的 获取 其 他 类 型 SQL 值 的 方 
法 ,它们 每 一 个 都 是 返回 游标 所 指 的 当前 元 组 的 第 ;个 成 分 。 所 使 用 的 方法 必须 适合 于 第 i 个 成 
分 类 型 。 

例 8.24 ”在 例 8.22 中 已 经 得 到 结果 集 Worths， 可 以 逐个 访问 它 的 元 组 。 由 于 这 些 元 组 只 
有 一 个 组 成 成 分 ， 且 为 整 型 。 循 环 的 形式 为 ; 


while(Worths.next()) { 
worth = Worths.getInt(1); 
/* process this net worth */ 


} 
0 


8.5.4 参数 传递 
在 CLI 中 ， 是 使 用 问号 替代 查询 的 部 分 ， 然 后 将 值 绑 定 到 这 些 参数 。 在 JDBC 中 的 做 法 是 创 








建 一 个 准备 语句 ， 用 方法 setString (i, v) 或 setInt (i, v) 将 值 v 绑 定 到 查询 的 第 i 个 参数 上 ， 
而 且 值 "必须 是 方法 中 一 种 合适 的 类 型 。 

例 8.25 ”模仿 例 8.21 的 CLI 代 码 ， 在 那里 准备 了 一 条 语句 将 新 的 制 片 厂 插 人 到 关系 Studio 
中 ,该 语句 带 有 表示 那个 制 片 三 名 称 和 地 址 的 值 的 参数 。 准 备 这 条 语句 、 设 置 参数 的 Java 代 码 ， 
见 图 8-21。 继 续 假定 连接 对 象 nyCcon 有 效 。 

第 1 行 和 第 2 行 ， 创 建 和 准备 插入 语句 。 该 语句 有 表示 被 插入 的 每 个 值 的 参数 。 第 2 行 以 后 ， 
开始 了 一 个 循环 ， 该 循环 重复 地 向 用 户 索 取 制 片 厂 的 名 称 和 地 址 ， 并 将 这 些 字符 串 置 于 变量 
studioName 和 studioAddr 中 。 第 3 行 和 第 4 行 分 别 将 第 一 个 和 第 二 个 参数 指向 保存 
studioName 和 studioAdqr 当 前 值 的 字符 串 。 最 后 ， 第 5 行 用 参数 的 当前 值 执行 插入 语句 。 
第 5 行 之 后 ， 从 含有 注释 的 步骤 再 次 开始 循环 。 口 
1) PreparedStatement studioStat = myCon.createStatement ( 
2) "INSERT INTO Studio(name, address) VALUES(?7, 7)"); 

/* get values for variables studioName and studioAddr 

from the user */ 
3) studioStat .setString(1, studioName); 


4) studioStat.setString(2, studioAddr); 
5) studioStat .executeUpdate(); 













图 8-21 在 JDBC 中 设置 和 使 用 参数 


8.5.5 习题 
习题 8.5.1 用 带 JDBC 的 Java 代 码 重 做 习题 8.1.1。 
习题 8.5.2 用 带 JDBC 的 Java 代 码 重 做 习题 8.1.2。 


8.6 SQL 中 的 事务 


目前 ， 在 数据 库 上 的 操作 模型 是 用 户 查 询 或 修改 数据 库 。 这 样 ， 数 据 库 上 的 操作 一 次 只 执 
行 一 个 ， 一 个 操作 留 下 的 数据 库 状 态 正 是 下 一 个 操作 所 要 起 用 的 。 进 一 步 ， 我 们 假定 操作 的 执 
行 是 个 实体 〈“ 原 子 性 地 ”)， 也 就 是 说 操作 过 程 中 硬件 和 软件 都 不 会 出 错 ， 不 会 留 下 操作 的 结 
果 不 能 解释 的 数据 库 状 态 。 

实际 情况 比 这 更 复杂 。 首 先 应 考虑 是 什么 导致 数据 库 处 于 这 样 一 种 不 能 反映 在 其 上 执行 的 
操作 的 状态 ， 接 着 考虑 SQL 提供 给 用 户 的 工具 ， 以 确保 不 会 出 现 这 些 问 题 。 

8.6.1 TRTE 

象 银行 业务 或 机 票 预定 这 样 的 应 用 ， 每 秒 钟 都 会 有 上 百 个 操作 在 数据 库 上 执行 。 这 些 操作 
从 成 千 上 百 的 地 方 启动 ， 如 自动 出 纳 机 或 旅行 社 的 台式 机 、 航 空 公司 雇员 或 旅客 自己 。 完 全 可 
能 有 两 个 操作 影响 同一 个 账目 或 航班 ， 并 上 且 这 些 操 作 时 间 可 能 重 谷 。 如 果 这 样 的 话 ， 它 们 会 以 
古怪 的 方式 相互 影响 。 例 如 : 如 果 DBMS 完 全 没有 约束 对 数据 库 操作 的 顺序 ， 那 么 将 会 出 现 错 
ie, 下 面 给 出 了 一 个 这 样 的 例子 。 要 强调 的 是 数据 库 系 统一 般 不 会 以 这 种 方式 运转 ， 要 使 商用 
数据 库 系 统 发 生 这 种 错误 还 得 费 些 周折 。 

例 8.26 ”假定 用 嵌 套 SQL 的 C 语 言 写 一 个 函数 chooseSeat () ， 读 取 关 于 有 效 航班 和 座位 的 
KA, 确定 特定 的 座位 是 否 有 效 , 如果 有 效 则 占用 这 个 座位 。 在 其 上 进行 操作 的 关系 是 Flights， 
它 有 属性 fItNum、f1tDate、fltSseat 和 occ， 它 们 的 意义 很 明显 。 选 择 座位 的 程序 见 图 8-22。 

图 8-22 的 第 9 行 到 第 11 行 是 一 个 单元 组 选择 ， 根据 指定 的 座位 占有 与 否 来 设置 共享 变量 occ 
为 真 或 假 ( 1 或 0 )。 第 12 行 检测 座位 是 否 被 占用 ， 如 果 没 有 ， 这 个 座位 更 新 为 被 占用 过 。 更 新 
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由 第 13 行 到 第 15 行 完成 ， 而 第 16 行 将 这 个 座位 分 配给 顾客 。 实 际 上 ， 很 可 能 将 座位 分 配 信息 存 
储 在 另 一 个 关系 中 。 最 后 ,在 第 17 行 ， 如 果 座 位 被 占用 了 ， 则 告知 顾客 。 


EXEC SQL BEGIN DECLARE SECTION; 
int flight; /* flight number */ 
char date[10]; /* flight date in SQL format */ 
char seat[3]; /* two digits and a letter represents 
a seat */ 
int occ; /* boolean to tell if seat is occupied */ 
EXEC SQL END DECLARE SECTION; 


void chooseSeat()} { 

/* C code to prompt the user to enter a flight, 
date, and seat and store these in the three 
variables with those names */ 

EXEC SQL SELECT occupied INTO :occ 

FROM Flights 


WHERE fltNum = :flight AND fltDate = :date 
AND fltSeat = :seat; 
if (tocc) { 
EXEC SQL UPDATE Flights 
SET occupied = TRUE 
WHERE fltNum = :flight 
AND fltDate = :date 
AND fltSeat = :seat; 
/* C and SQL code to record the seat assignment 
and inform the user of the assignment */ 
} 、 
else /* C code to notify user of unavailability and 
ask for another seat selection */ 





图 8-22 选择 座位 


现在 ， 记 得 函数 chooseSeat () 可 以 被 2 个 或 多 个 顾客 同时 执行 。 假 设 很 巧合 地 ， 有 两 个 
代理 程序 几乎 在 同一 时 刻 试 图 预定 同一 日 期 和 同一 航班 的 同一 个 座位 ， 如 图 8-23。 它 们 同时 到 
达 第 九 行 ， 它 们 的 局 部 变量 occ 的 副本 都 是 0 值 ， 也 就 是 ， 座 位 目前 没有 被 分 配 。 在 第 12 行 ， 
chooseSeat () 的 每 次 执行 使 得 occ 更 新 为 TRUE， 即 占用 该 座位 。 这 些 更 新 可 能 一 个 接 一 个 
地 执行 ， 每 次 执行 都 在 第 16 行 告诉 顾客 这 个 座位 属于 他 们 。 口 


在 例 8.26 中 ， 可 以 想像 这 两 个 操作 都 可 以 正确 地 执行 ， 但 是 从 全 局 看 结果 不 对 : 两 个 顾客 
都 相信 自己 得 到 了 这 个 有 争议 的 座位 。 这 个 问题 可 以 用 一 些 SQL 机 制 来 解决 ， 这 些 机 制 将 函数 
的 执行 串 行 化 。 如 果 一 个 函数 在 别 的 函数 开始 之 前 执行 完毕 ， 则 说 作用 在 同一 个 数据 库 上 的 函 
数 的 执行 是 串 行 的 。 如 果 函 数 表现 得 好 像 串 行 


运行 的 一 样 ， 那 么 就 说 该 执行 是 可 品行 化 的 ， 们 投放 
虽然 函数 的 执行 有 可 能 在 时 间 上 重重 。 Lae 
很 清楚 ， 如 果 chooseseat () 的 两 个 引用 位 没 被 占有 


ERITH (RÆTT RIMER), WARNAE 用 户 1 占有 座位 
到 的 错误 就 不 会 发 生 。 一 个 1 顾客 的 启用 先 发 生 ， 
这 个 顾客 看 到 一 个 空 的 座位 并 预定 它 。 接 着 其 


用 户 2 占 有 座位 
他 顾客 的 启用 开始 且 看 到 该 座位 已 经 被 占用 。 图 8-23 两 个 顾客 试图 同时 预定 同一 座位 





SOL RRS 


对 顾客 而 言 谁 占 了 座位 可 能 是 要 紧 的 ， 但 是 对 数据 库 而 言 最 重要 的 是 一 个 座位 只 能 被 分 配 一 次 。 
8.6.2 原子 性 

如 果 两 个 或 多 个 数据 库 操作 在 同一 时 间 执行 ， 可 能 出 现 不 可 串 行 化 的 行为 ， 除 此 之 外 ， 如 
果 在 一 个 操作 执行 过 程 中 出 现 硬件 或 软件 “崩溃 "， 这 个 操作 有 可 能 使 那个 数据 库 处 于 不 可 接 
| 受 的 状态 。 例 8.26 将 表明 会 发 生 些 什么 。 要 记 住 实际 的 数据 库 系统 不 允许 出 现 这 种 错误 。 


保证 串 行 化 行为 

实际 上 要 求 操作 连续 运行 是 不 可 能 的 ; 操作 数目 太 多 并 且 存 在 一 定 程度 的 并 行 。 因 
此 ，DBMS 采 用 了 一 种 机 制 来 保证 串 行 化 行为 。 即 使 操作 不 是 连续 的 ， 对 用 户 而 言 结果 
看 起 来 好 像 操 作 是 在 连续 执行 。 

对 于 DBMS ， 一 个 普通 的 方式 是 锁定 数据 库 的 元 素 防止 两 个 函数 同时 访问 这 些 元 素 。 
1.2.4 节 提供 了 锁 技 术 ， 这 个 思想 在 18.3 节 将 被 广泛 的 提 到 。 但 是 这 个 思想 的 深入 讨论 超 
出 了 本 书 范围 。 鲍 如 ， 如 果 例 8.26 中 的 函数 chooseSeat () 锁 定 了 Flights 关 系 以 外 的 
其 他 操作 ， 那 么 不 访问 Flights 的 操作 可 以 和 chooseSeat 的 调用 并 行 ， 但 是 调用 
chooseSeat 的 其 他 操作 不 可 以 运行 。 


例 8.27 ”现在 来 看 另 一 个 通常 的 数据 库 ， 银行 的 账目 记录 。 用 带 属 性 acctNo 和 balance 
的 关系 Accounts 来 表示 这 种 情况 。 该 关系 中 账号 和 账户 余额 是 成 对 的 。 

希望 写 一 个 函数 transfer () ， 该 函数 读 取 两 个 账户 和 一 定数 额 的 款项 ， 检 查 第 一 个 账户 
存储 的 款项 是 否 大 于 此 数额 ， 如 果 是 ， 将 钱 如 数 从 第 一 个 账户 转移 到 第 二 个 账户 。 函 数 
transfer 见 图 8-24。 


EXEC SQL BEGIN DECLARE SECTION; 
int acct1, acct2; /* the two accounts */ 
int balancei; /* the amount of money in the 
l first account */ 
int amount; /* the amount of money to transfer */ 
EXEC SQL END DECLARE SECTION; 






















void transfer() { 
/* C code to prompt the user to enter accounts 
1 and 2 and an amount of money to transfer, 
- in variables acct1, acct2, and amount */ 
EXEC SQL SELECT balance INTO :balancel 


FROM Accounts 
WHERE acctNo = :acct1; 
if (balancel >= amount) { 
EXEC SQL UPDATE Accounts 
SET balance = balance + :amount 
WHERE acctNo = :acct2; 
EXEC SQL UPDATE Accounts 
SET balance = balance - : amount 
WHERE acctNo = :acctl; 
} 
else /* C code to print a message that there were 
insufficient funds to make the transfer */ 





图 8-24 从 一 个 账户 向 另 一 个 账户 转账 
图 8-24 的 工作 是 直接 的 。 第 8 行 到 第 10 行 查询 第 一 个 账户 的 余额 。 在 第 11 行 ， 判 断 余额 是 
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否 足够 提取 所 希望 数额 的 钱 。 如果 是 的 话 , 那么 第 12 行 到 第 14 行 将 这 个 钱 数 加 到 第 二 个 账户 上 ， 
第 15 到 第 17 行 从 第 一 个 账户 提取 出 同样 多 的 钱 。 如 果 第 一 个 账户 的 余额 不 够 ， 那 么 不 发 生 转移 
并 且 在 第 18 行 输出 一 个 警告 。 

现在 ， 考 虑 如 果 第 14 行 之 后 失败 了 会 如 何 。 也 许 是 计算 机 失效 ， 也 许 是 连接 数据 库 和 正在 
进行 转移 的 处 理 机 的 网 络 失效 。 然 后 ， 数 据 库 处 于 这 样 的 状态 : 钱 已 经 转移 到 第 二 个 账户 ,但 
还 没有 改动 第 一 个 账户 。 银 行 实际 上 损失 了 那些 要 转移 的 钱 。 口 


例 8.27 说 明 的 问题 是 数据 库 操作 的 某 些 结合 ( 如 图 8-24 的 两 个 更 新 ) 需要 原子 地 完成 的 ， 
即 ， 要 么 都 做 要 么 都 不 做 。 例 如 ,一 个 简单 的 解决 方案 是 将 对 数据 库 的 所 有 改变 都 在 一 个 本 地 
工作 区 中 完成 ， 而 且 只 有 在 这 些 工作 都 完成 后 才 对 数据 库 提 交 ， 于 是 这 些 改变 成 为 数据 库 的 一 
部 分 ， 并 且 对 其 他 操作 可 见 。 

8.6.3 事务 

8.6.1 节 和 8.6.2 节 提出 的 对 可 串 行 化 和 原子 性 问题 的 解决 方案 将 把 数据 库 操作 分 组 成 事务 
(transaction)。 事 务 是 一 个 或 多 个 必须 被 原子 地 执行 的 数据 库 操作 的 集合 ， 也 就 是 说 每 个 操作 
要 么 都 执行 要 么 都 不 被 执行 。 另 外 ，SQL 要 求 事务 缺 省 地 以 可 串 行 化 方式 执行 。DBMS 人 允许 用 
户 对 两 个 或 多 个 事务 的 操作 交叉 指定 一 个 不 那么 严格 的 约束 条 件 。 

使 用 基本 SQL 界面 时 ， 每 条 语句 其 自身 都 是 一 个 事务 8 。 不 过 ， 当 编写 带 有 上 骨 套 SQL 或 带 
有 SQL/ACLI、JDBC 的 代码 时 ， 通 常 要 显 式 地 控制 事务 。 当 查询 以 及 操纵 数据 库 或 模式 的 任何 
语句 开始 时 ， 事 务 自 动 开 始 。SQL 命 令 START TRANSACTION 也 可 以 在 需要 时 使 用 。 

在 基本 界面 中 ， 除 非 事务 用 START TRANSACTION 命令 启动 ， 否 则 均 以 语句 结束 。 在 所 
有 其 他 的 情况 中 ， 有 两 种 方式 可 以 结束 一 个 事务 : 

1. SQL 语句 COMMIT 导 致 事务 成 功 地 结束 。 由 这 条 SQL 语句 或 从 当前 事务 开始 以 来 的 语句 
组 引起 的 、 对 数据 库 的 任何 改变 都 被 永远 建立 在 数据 库 中 ( 即 ， 它 们 被 提交 了 )。 在 coMMIT 
事务 执行 之 前 ， 改 变 是 试探 性 的 或 者 说 对 其 他 事务 不 可 见 。 

2. SQL 语句 ROLLBACK 导 致 事务 天 折 或 不 成 功 结束 。 任 何 由 该 对 事务 的 SQL 语句 所 引起 的 
改变 都 被 撤消 ( 即 它们 被 回 滚 )， 故 它们 不 再 出 现在 数据 库 中 。 

上 述 观 点 有 一 个 例外 。 如 果 试 图 提交 一 个 事务 ,但 是 需要 延迟 约束 检查 ( 见 7.1.6 节 )， 且 
这 些 约束 现在 不 满足 ， 那 么 即使 用 CoMMIT 语 句 告 诉 事务 ， 事务 也 不 提交 。 甚 至 会 造成 事务 回 
R, 并且 sQLSTATE 中 有 一 个 指示 告诉 应 用 程序 事务 因为 这 个 原因 而 天 折 。 


事务 中 数据 库 如 何 变化 

不 同 的 系统 可 以 采用 不 同 的 方法 实现 事务 。 事 务 执行 时 ， 它 可 能 引起 数据 库 的 变化 。 
如 果 事 务 天 折 ， 那 么 ( 如 果 没 有 预防 ) 这 些 变 化 可 能 已 经 被 其 他 的 事务 看 到 。 对 数据 库 
系统 而 言 ， 最 普通 的 方式 是 锁定 被 改变 的 项 目 直 到 选择 了 COMMIT 或 者 ROLLBACK， 这 
样 就 阻止 了 其 他 事务 看 到 这 些 暂时 的 变化 。 如 果 用 户 想 让 事务 以 串 行 化 方式 运行 ， 那么 
一 定 使 用 了 锁 或 者 其 等 效 物 。 

但 是 ， 如 在 8.6.4 节 看 到 的 ，SQL 提 供 了 关于 数据 库 暂 时 变化 的 几 个 选项 。 被 改变 的 
数据 有 可 能 没有 被 加 锁 并 且 是 可 见 的 ， 即 使 随后 的 回 滚 使 变化 消失 。 它 是 由 事务 的 程序 

日 、 然 而 ， 很 多 由 语句 唤 根 的 触发 器 也 是 这 同一 个 事务 的 一 部 分 。 一 些 系统 也 允许 触发 器 唤醒 其 他 的 触发 器 ， 

如 果 是 这 样 ， 所 有 这 些 动作 也 是 该 事务 的 一 部 分 。 
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设计 者 来 决定 是 否 需要 避免 暂时 变化 的 可 见 性 。 有 鉴于 此 ， 所 有 SQL 的 实现 都 提供 一 种 





方法 ， 如 锁 技 术 ， 以 保持 数据 库 的 变化 在 提交 前 不 可 见 。 


例 8.28 ”假设 要 以 单个 事务 的 形式 执行 图 8-24 中 的 函数 trans fer () 。 事 务 从 第 8 行 读 取 
第 一 个 账户 的 余额 时 开始 。 如 果 第 11 行 的 测试 为 真 ， 完 成 资金 的 转移 ， 接 着 提交 所 做 的 改变 。 
这 样 ， 在 第 12 行 到 第 17 行 让 分 程序 块 的 未 尾 附 加 上 一 条 SQL 语句 : 

EXEC SQL COMMIT ; 

如 果 第 11 行 的 测试 为 假 一 一 也 就 是 , 没有 足够 的 资金 可 供 转移 一 一 那么 可 以 选择 天 折 事 务 。 
在 第 18 行 else 分 程序 块 的 末尾 附加 完成 该 工作 的 语句 


EXEC SQL ROLLBACK; 


实际 上 ， 既 然 在 这 个 转移 中 没有 执行 数据 库 修改 语句 ， 无 论 是 提交 还 是 天 折 事 务 都 无 关 紧 
要 ， 因 为 没有 改变 被 提交 。 口 


8.6.4 只 读 事务 ' 

例 8.26 和 例 8.27 都 包含 了 一 个 先 读 然后 写 数据 到 数据 库 中 的 事务 。 这 种 事务 容易 产生 串 行 
化 问题 。 因 此 在 例 8.26 中 看 到 ， 如 果 两 个 操作 试图 在 同一 个 时 刻 预定 同一 个 座位 会 发 生 什么 情 
况 ， 在 例 8.27 中 又 看 到 ， 如 果 在 函数 执行 过 程 中 出 现 崩 省 ， 那 么 会 发 生 什 么 情况 。 然 而 ， 当 一 
个 事务 只 读 取 而 不 写 数据 时 ， 就 可 以 更 自由 地 让 事务 与 别 的 事务 并 行 执行 e。 


应 用 产生 的 回 滚 与 系统 产生 的 回 滚 
在 讨论 事务 时 ， 假 定 对 事务 提交 还 是 回 滚 的 判定 是 产生 此 事务 的 应 用 程序 的 一 部 分 。 
也 就 是 说 ， 如 同 例 8.30 和 8.28， 一 个 事务 可 以 完成 很 多 数据 库 操作 ， 接 着 通过 发 布 
COMMIT 来 决定 导致 永久 变化 ， 或 是 通过 发 布 ROLLBACK 返 回 到 初始 状态 。 然 而 ， 系 统 


也 可 以 执行 事务 回 滚 ， 在 其 他 的 并 发 事务 或 系统 故障 出 现时 遵照 它们 特定 的 独立 层次 自 
动 执行 。 通 常 ， 如 果 系 统 天 折 一 个 事务 那么 会 产生 一 个 特殊 的 错误 代码 或 异常 。 如 果 应 
用 程序 希望 确保 事务 成 功 执 行 ， 就 必须 捕 扣 这些 条 件 ( 如 通过 SQLSTATE 的 值 ) HEE 
启 这 个 有 问题 的 事务 。 


例 8.29 ”假定 写 了 一 个 读数 据 来 判断 某 个 座位 是 否 有 效 的 程序 ; 这 个 函数 的 动作 如 图 8-22 
的 第 1 行 到 第 11 行 。 可 以 立即 执行 这 个 函数 的 多 次 调用 ， 不 用 担心 会 对 数据 库 造 成 永久 伤害 。 
最 糟 的 情形 是 ， 在 读 取 某 个 有 效 座位 时 ， 别 的 函数 正在 预定 或 释放 这 个 座位 。 因 此 ， 依 赖 于 执 
行 该 查询 时 的 微观 区 别 ， 可 能 得 到 答案 是 “有 效 ” 或 “被 占用 "， 但 是 这 个 答案 在 某 个 时 刻 将 
具有 确定 的 意义 。 口 

如 果 SQL 执 行 系统 被 告知 当前 的 事务 是 只 读 的 ， 即 ， 它 不 会 改变 数据 库 ， 那 么 SQL 系 统 能 
够 充分 利用 这 一 点 。 一 般 地 ， 许 多 访问 同一 数据 的 只 读 事 务 可 以 并 发 地 运行 ， 但 是 写 同 一 数据 
的 事务 不 可 以 。 

通过 以 下 语句 告知 SQL 系统 下 面 的 事务 是 只 读 事务 ， 


SET TRANSACTION READ ONLY; 


O 一 方面 在 事务 , 另 一 方面 在 游标 管理 之 间 有 个 比较 。 例 如 ， 注 意 到 在 8.1.8 节 使 用 只 读 游标 比 一 般 游标 能 得 
到 更 高 的 并 行 性 。 同 样 ， 只 读 事务 能 并 行 ， 而 读 写 事务 禁止 并 行 。 
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这 条 语句 必须 在 事务 开始 之 前 执行 。 例 如 ， 如 果 有 个 函数 由 图 8-22 的 第 1 行 到 第 11 行 组 成 ， 
那么 通过 在 事务 开始 处 第 九 行 之 前 添加 下 面 的 语句 ， 可 以 声明 其 是 只 读 事务 : 
EXEC SQL SET TRANSACTION READ ONLY; 


如 果 在 第 9 行 后 面 的 话 就 太 晚 了 ， 会 导致 事务 不 是 只 读 事务 。 

可 以 通过 语句 

SET TRANSACTION READ WRITE; 

通知 SQL 即将 开始 的 事务 可 以 写 数据 。 不 过 ， 这 个 选项 是 缺 省 选项 ， 因 此 不 是 必须 的 。 
8.6.5 读 胜 数据 

脏 数 据 〈 dirty data) 是 表示 未 提交 的 事务 所 写 的 数据 的 通用 术语 。 脏 读 取 (dirty read) 是 
对 脏 数 据 的 读 取 。 读 脏 数据 的 风险 是 写 数据 的 事务 最 终 可 能 被 放弃 。 如 果 这 样 ， 那 么 脏 数据 将 
从 数据 库 中 移 走 ， 就 像 这 个 数据 不 曾 存在 过 。 如 果 别 的 事务 恋 取 了 这 个 脏 数据 ， 然 后 该 事务 可 
能 用 提交 或 别 的 措施 反映 它 对 脏 数 据 的 计算 结果 。 

读 脏 数据 有 时 会 带 来 问题 ， 有 时 却 无 关 紧要 。 当 读 脏 数据 带 来 的 影响 足够 小 时 ， 侦 尔 读 一 
次 脏 数据 也 并 非 不 可 以 ， 由 此 还 可 以 避免 

1. DBMS 用 来 预防 读 脏 数 据 所 做 的 费时 的 工作 。 

2. 因 等 待 而 未 去 读 赃 数据 造成 的 并 发 性 丢失 。 

下 面 例子 表明 当 人 允许 读 脏 数据 时 将 会 发 生 什 么 情况 。 

例 8.30 ”再 次 考虑 例 8.27 的 账户 转移 。 不 过 ， 假 定 转移 由 程序 P 实 现 ，P 执 行 下 面 一 系列 
步骤 ; 

1. 将 这 些 钱 加 到 第 二 个 账户 。 

2. 检测 账户 1 是 否 有 足够 的 钱 。 

(a) 如 果 没 有 足够 的 钱 ， 将 这 些 钱 从 第 二 个 账户 减 去 并 结束 。。 

(b) 如 果 有 足够 的 钱 ， 从 第 一 个 账户 减 去 这 些 钱 并 结束 。 

如 采 程 序 P 是 串 行 执行 ， 那 么 把 钱 临时 放 人 第 二 个 账户 是 无 关 紧要 的 。 没 人 看 到 这 笔 钱 ， 
当 转 移 不 成 功 时 将 被 减 去 。 

不 过 ， 假 定 有 可 能 读 脏 数据 。 假 想 有 三 个 账户 : 41、42 和 43， 各 有 $100、$200、$300。 
假设 事务 71 执 行程 序 P 将 $150 从 41 转 移 到 42。 大 概 在 同一 时 间 ， 事 务 72 运 行程 序 P 将 $250 从 42 
转移 到 43。 这 是 一 个 可 能 的 事务 顺序 : 

1. 有 执行 步骤 1 将 $250 加 到 43， 现 在 43 有 $550。 

2. 六 执行 步骤 1 将 $150 加 到 42， 现 在 42 有 $350。 

3. 也 执行 步骤 2 的 测试 ， 发 现 42 有 足够 的 资金 ($350 ) 允许 从 42 到 43 的 $250 转 移 。 

4. 卫 执行 步骤 2 的 测试 ， 发 现 41 没 有 足够 的 资金 ($100 )， 不 允许 从 41 到 42 的 $150 转 移 。 

5. 也 执行 步骤 2b。 从 42 中 减 去 $230，42 现 在 有 $100， 并 结束 。 

6. 也 执行 步骤 2a。 从 42 中 减 去 $150，42 现 在 有 -$50， 并 结束 。 

钱 的 总 数 没 变 。 这 三 个 账户 中 总 共 仍 有 $600。 但 是 因为 2 在 上 述 6 个 步骤 中 的 第 三 个 步 又 
中 读 取 了 胜 数据， 故 不 能 阻止 一 个 账户 变 为 负 值 ， 而 本 来 的 目的 是 希望 检测 第 一 个 账户 是 否 有 
足够 的 资金 。 口 


O 读者 应 知道 程序 P 试 图 完成 比 DBMS 更 常见 的 功能 。 特 别 地 ， 像 P 在 这 一 步 所 做 的 那样 ， 当 P 决 定 不 完成 这 
个 事务 时 ， 它 将 发 出 一 个 回 滚 (天 折 ) 命令 给 DBMS ， 让 DBMS 消 除 P 执 行 造成 的 影响 。 
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例 8.31 假想 例 8.26 中 的 座位 选择 函数 有 个 变化 。 在 新 的 方法 中 : 

1. 发 现 一 个 有 效 座 位 ， 通 过 设置 occ 为 TRUE 来 取得 这 个 座位 。 如 果 没 有 有 效 座 位 ， 则 天 折 。 

.2. 询问 顾客 是 否 要 这 个 座位 。 如 果 是 ， 提 交 。 如 果 否 ， 通 过 设置 occ 为 FALSE 来 放弃 这 个 
座位 ， 重复 步骤 1 取得 另 一 个 座位 。 

如 果 两 个 事务 几乎 同时 执行 这 个 算法 ,一 个 事务 可 能 取得 一 个 座位 $5，5S 后 来 被 顾客 拒绝 。 
如 果 在 座位 5 被 标记 为 占用 时 第 二 个 事务 执行 步骤 1， 第 二 位 顾客 不 能 得 到 座位 5 的 选择 权 。 

例 8.30 中 的 问题 是 读 了 脏 数据 。 第 二 个 事务 看 到 一 个 由 第 一 个 事务 所 写 的 元 组 ( 5 被 标记 
为 占用 )， 该 元 组 后 来 又 被 第 一 个 事务 修改 。 O 


读 到 了 脏 数据 会 怎样 ? 在 例 8.30 中 ， 它 引起 账户 变 为 负 值 ， 尽 管 显而易见 这 种 情况 禁止 发 
生 。 在 例 8.31 中 ， 问 题 看 起 来 没 这 人 么 严重 。 事 实 上 ， 第 二 个 顾客 可 能 没 得 到 他 喜欢 的 座位 ， 或 
者 甚至 被 告知 没有 座位 了 。 不 过 ， 后 一 种 情况 中 ， 再 次 运行 事务 很 有 可 能 就 显示 了 座位 8 的 有 效 
性 。 用 允许 读 脏 数据 的 方式 实现 座位 选择 函数 是 有 意义 的 ， 可 以 加 速 预定 要 求 的 平均 处 理 时 间 。 
SQL 人 允许 明确 指定 一 个 给 定 的 事务 可 以 读 脏 数据 。 使 用 8.6.4 节 讨论 的 SET TRANSACTION 
语句 。 对 于 像 例 8.31 中 描述 的 事务 而 言 ， 合 适 的 形式 为 : 406 





1) SET TRANSACTION READ WRITE 

2) ISOLATION LEVEL READ UNCOMMITTED; 

ERE AUT ES 

1. 第 1 行 声明 事务 可 以 写 数据 。 

2. 第 2 行 声明 事务 在 读 不 提交 (read-uncommitted ) 的 “隔离 级 别 ” 运 行 。 即 ， 人 允许 事务 读 
及 数据 。8.6.6 节 将 讨论 四 种 隔离 级 别 。 目 前 为 止 ， 已 经 学 习 了 两 种 ， 串 行 化 和 读 不 提交 。 


运行 在 不 同 隔离 级 别 的 事务 之 间 的 交互 
微妙 之 处 在 于 事务 的 隔离 级 别 只 影响 事务 可 以 看 到 的 那些 数据 ， 不 影响 其 他 事务 所 
看 到 的 。 作 为 佐证 ， 如 果 事 务 T 正 在 串 行 化 级 别 运行 ， 那 么 7 的 执行 必须 看 起 来 好 像 所 有 


其 他 事务 的 执行 要 么 完全 在 7 之 前 要 么 完全 在 7 之 后 。 但 是 ， 如 果 一 些 事务 正 运行 在 其 他 
的 隔离 级 别 上 ， 那 么 他 们 可 以 看 到 T 所 写 的 数据 。 如 果 他 们 运行 在 读 不 提交 隔离 级 别 ， 他 
们 可 以 看 到 来 自 7 的 脏 数 据 ， 且 7 天 折 。 





注意 ， 如 果 事 务 不 是 只 读 的 ( 即 ， 有 可 能 修改 数据 库 )， 且 指定 了 独立 层次 READ 
UNCOMMITED， 那 么 也 必须 指定 READ WRITE。 回 忆 8.6.4 节 的 缺 省 假设 是 事务 是 读 写 的 。 不 
过 ，SQL 对 于 允许 读 脏 数据 时 有 一 个 例外 。 那 么 ， 缺 省 假设 是 只 读 ， 因 为 如 已 经 看 到 的 那样 ， 
带 有 读 脏 数据 的 读 写 事务 有 很 大 的 风险 。 如 果 让 读 写 事务 在 读 不 提交 的 隔离 级 别 上 运行 ， 那 么 
需要 像 上 述 那样 显 式 地 指定 READ WRITE。 
8.6.6 其 他 隔离 级 别 

SQL 一 共 提 供 了 四 种 隔离 级 别 。 有 两 种 已 经 看 到 了 : 串 行 化 和 读 不 提交 ( 允许 读 脏 数据 时 ) 
其 余 丙 种 是 读 提 交 和 重复 读 。 它 们 可 分 别 通过 下 面 语 句 指明 ， 

SET TRANSACTION ISOLATION LEVEL READ COMNITTED; 


或 


SET TRANSACTION ISOLATION LEVEL REPEATABLE READ; 


一 


Bb 
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对 于 每 条 语句 ， 事 务 缺 省 是 读 写 的 ， 所 以 在 适当 的 情况 下 ， 可 在 每 条 语句 后 面 加 上 READ 
ONLY。 另 外 ， 指 定时 也 可 以 选择 


SET TRANSACTION ISOLATION LEVEL SERIALIZABLE; 


但 是 , 这 是 SQL 的 缺 省 情况 ， 不 必 显 式 指明 。 

读 提 交 禁 止 读 取 脏 数据 (没有 提交 的 数据 )， 如 它 的 名 字 所 示 。 但 是 ， 它 却 允 许 一 个 事务 发 
布 同一 个 查询 若干 次 并 得 到 不 同 的 管 案 ， 前 提 是 只 要 答案 反映 了 已 经 提交 的 事务 所 写 的 数据 。 

例 8.32 重新 考虑 例 8.31 的 座位 选择 函数 ， 但 是 假定 声明 函数 运行 在 读 提 交 隔 离 级 别 。 那 
么 在 第 一 步 寻 找 座位 时 ， 如 果 另 外 的 事务 正在 预约 座位 而 没有 提交 ， 那 么 它 不 会 将 这 些 座 位 看 
做 是 预定 过 的 。。。 但 是 ， 如 果 旅 客 拒绝 了 座位 ， 并 且 多 次 执行 查询 有 效 座 位 ， 那 么 每 次 查询 
时 可 以 看 到 不 同 的 有 效 座位 集 ， 因 为 和 这 个 事务 并 发 执行 的 其 他 事务 可 以 成 功 地 预定 或 取消 座 
位 。 口 


现在 ,考虑 重复 读 隔离 级 别 。 这 个 术语 有 点 像 写 错 了 名 字 ， 因 为 不 止 一 次 发 布 的 同一 个 查 
询 不 能 保证 得 到 相同 的 答案 。 在 重复 读 下 ， 如 果 元 组 是 第 一 次 被 检索 到 ， 那 么 可 以 确信 重复 这 
个 查询 时 指定 的 元 组 再 次 被 检索 到 。 不 过 ， 执 行 同 一 个 查询 的 第 二 次 查询 或 子 查询 也 有 可 能 检 
索 到 幻象 元 组 ( phantom tuple )。 后 者 是 当 该 事务 执行 时 插入 到 数据 库 中 的 结果 元 组 。 

例 8.33 ”继续 例 8.31 和 例 8.32 中 的 座位 选择 问题 。 如 果 在 重复 读 隔离 级 别 下 执行 这 个 函数 ， 
那么 在 第 一 次 查询 第 一 步 时 有 效 的 座位 在 子 查询 中 仍 保持 有 效 性 。 1 

但 是 , 假定 关系 F1ights 有 了 新 的 元 组 。 例 如 航线 可 能 将 航班 转 为 较 大 的 飞机 ， 创 建 了 
以 前 不 存在 的 新 元 组 。 于 是 在 重复 读 隔 离 级 别 下 ， 查 询 有 效 座位 的 子 查 询 也 可 能 检索 到 这 些 新 
座位 。 口 


8.6.7 习题 
习题 8.6.1 本 题 以 及 下 一 题 的 程序 都 涉及 到 对 下 面 两 个 关系 的 操作 
Product (maker, model, type) 
PC(model, speed, ram, hd, rd, price) 
使 用 嵌入 的 SQL 和 恰当 的 宿主 语言 ， 简 要 写 出 下 列 程序 。 记 住 在 恰当 的 时 候 使 用 
COMMIT 和 ROLLBACK 语 句 ， 如 果 你 的 事务 是 只 读 的 ， 要 告诉 系统 。 
a) 给 定 speed 和 RAM 的 容量 作为 函数 的 参数 )， 查 询 有 此 速度 和 RAM 的 PC， 打 印 出 
model 和 price。 
* b) 给 定 一 个 nodel 值 ， 从 PC 和 Product 中 删除 mode1 值 与 给 定 值 相同 的 元 组 。 
c) 给 定 mode1l 值 ， 将 有 此 mode1 值 的 PC 的 price 值 减少 $100。 
d) 给 定 maker 、model、 处 理 器 速度 、RAM 的 大 小 、 硬 盘 的 大 小 、 可 移动 磁盘 的 类 
型 以 及 价格 ， 检 查 是 否 有 mode1 值 为 给 定 值 的 product。 如 果 有 这 样 的 mode1， 
为 用 户 打印 一 条 出 错 信息 。 如 果 没 有 ， 将 关于 此 moael 的 信息 输入 PC 和 Proauct 
表 。 
! 习题 8.6.2 ”对 于 上 题 中 的 每 个 程序 ， 讨 论 原子 性 问题 ， 在 程序 执行 过 程 中 会 出 现 系统 崩 


© 真正 发 生 了 什么 看 起 来 有 些 神秘 ， 因 为 人 们 不 能 确定 实施 不 同 隔离 级 别 的 算法 。 很 可 能 ， 如 果 两 个 事务 都 
看 到 一 个 座位 有 效 且 试图 预定 ， 那 么 系统 必须 强迫 回 滚 一 个 事务 以 避免 死 锁 ( 见 8.6.3 节 的 方 柱 “应 用 引起 
的 回 滚 以 及 系统 引起 的 同 滚 ”)。 





SOL ARH 2 


省 吗 ? 

习题 8.6.3 ”假设 执行 习题 8.6.1 四 个 程序 中 的 一 个 作为 事务 T， 同 一 时 间 也 可 以 执行 同一 个 

或 不 同 的 程序 作为 其 他 事务 。 如 果 所 有 的 事务 都 在 读 不 提交 隔离 级 别 运 行 ( 如 果 它 们 都 在 

可 串 行 化 隔离 级 别 运 行 ， 这 种 情况 就 不 可 能 出 现 了 )， 事 务 7 的 运行 状况 如 何 ? 分别 考虑 事 

务 7 是 习题 8.6.1 中 的 任何 一 个 。 

*!! 习题 8.6.4 ”假设 有 一 个 事务 T 它 是 “永久 ”运行 的 函数 ， 每 小 时 检查 一 次 是 否 有 速度 为 
1500 或 更 高 、 售 价 在 $1000 以 下 的 PC 机 。 如 果 找 到 ， 打 印 出 相关 信息 并 终止 。 在 此 期 间 ， 
可 能 运行 了 习题 8.6.1 描 述 的 四 个 程序 。 说 出 在 每 一 个 隔离 级 别 一 一 可 串 行 化 、 重 复读 、 读 
提交 、 以 及 读 未 提交 一 一 下 的 事务 7 的 效果 。 


8.7 SQL 中 的 安全 机 制 和 用 户 认证 


SQL 假定 授权 ID 的 存在 ， 这 些 ID 基 本 上 都 是 用 户 名 。SQL 也 有 一 个 特殊 的 授权 ID ， 
PUBLIC， 它 包含 了 所 有 用 户 。 授 权 ID 可 以 被 授予 权限 ， 很 像 操作 系统 里 文件 系统 维护 中 的 授 
权 。 例 如 ，UNIX 系 统一 般 可 以 控制 三 种 权限 : read，write， 以 及 execute。 这 些 权 限 有 意义 ， 
是 因为 UNIX 系 统 中 受 保护 的 对 象 是 文件 ,这 三 种 操作 已 赛 括 了 可 以 对 文件 所 作 的 事 。 但 是 数 
据 库 比 文件 系统 要 复杂 的 多 ， 相 应 的 SQL 中 权限 的 种 类 也 要 复杂 得 多 。 

8.7.1 权限 

SQL 中 定义 了 九 种 类 型 的 权限 : SELECT, INSERT, DELETE, UPDATE, REFERENCE, 
USAGE、TRIGGER、EXECUTE、UNDER。 前 四 个 应 用 到 关系 上 ， 这 里 关系 可 以 是 表 或 视图 。 
正如 这 四 种 权限 的 名 字 所 示 ， 它 们 分 别 赋予 了 权限 拥有 者 查询 关系 、 往 关系 中 插入 数据 、 删 除 
关系 中 的 数据 以 及 更 新 关系 中 的 元 组 这 些 权 力 。 

一 个 包含 了 一 条 SQL 语句 的 模块 如 果 没 有 相应 的 权限 是 不 能 被 执行 的 。 例 如 ， 一 个 select- 
from-where 语 句 要 求 对 它 访问 的 每 个 表 有 SELECT 权限 。 在 后 面 可 以 看 到 模块 如 何 获得 这 些 权 
“ 限 。SELECT、INSERT 以 及 UPDATE 也 可 以 有 一 些 相 关 的 属性 ， 例 如， 
SELECT (name, adGr) 。 这 样 的 话 ， 只 有 这 些 属性 可 以 在 查询 中 看 到 ， 在 做 插入 的 时 候 也 只 
有 这 些 属性 可 以 被 说 明 ， 或 者 修改 时 只 能 修改 这 些 属 性 。 注 意 , 授权 的 时 候 ， 这 些 权限 会 和 -- 
个 特定 的 关系 相 联 结 ， 此 时 关系 属性 name 和 addr 属 于 什么 关系 是 清楚 的 。 

关系 上 的 REFERENCE 权 限 是 指 在 完整 性 约束 下 引用 关系 的 权力 。 这 些 约束 可 以 使 用 第 7 章 
提 到 的 所 有 形式 ， 像 断言 、 基 于 属性 或 元 组 的 约束 或 引用 完整 性 约束 。REFERENCE 权 限 也 有 
一 些 附加 的 属性 ， 此 时 ， 只 有 这 些 属 性 在 约束 中 可 以 被 引用 。 一 个 约束 只 有 在 它 所 在 模式 的 拥 
有 者 拥有 它 涉及 的 所 有 数据 的 REFERENCE 权 限时 才能 被 检查 。 

USAGE 权 限 主要 应 用 在 多 种 模式 元 素 上 而 不 是 关系 和 断言 上 ( 见 8.3.2 )。 它 给 出 了 在 声明 
中 使 用 这 些 元 素 的 权利 。 关 系 上 的 TRIGGER 权 限 是 定义 这 个 关系 上 的 触发 器 的 权力 。 
EXECUTE 是 执行 如 PSM 过 程 或 函数 之 类 的 代码 的 权力 。 最 后 ，UNDER 是 创建 给 定 类 型 的 子 类 
型 的 权力 。 这 个 问题 将 延迟 到 第 9 章 ， 那 时 开始 讨论 SQL 面向 对 象 的 细节 。 


触发 器 和 权限 

触发 器 如 何 处 理 权 限 有 一 点 微妙 。 首 先 ， 如 果 你 拥有 一 个 关系 的 TRIGGER 权 限 ， 那 
么 可 以 试图 创建 这 个 关系 的 任何 触发 器 。 不 过 ， 既 然 触发 器 的 条 件 和 动作 部 分 与 数据 库 
的 查询 和 /或 修改 部 分 很 相似 ， 触 发 器 的 创建 者 必须 拥有 这 些 操 作 的 基本 权限 。 当 有 人 执 
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行 唤醒 触发 器 的 操作 时 ， 他 不 需要 具备 触发 器 条 件 和 动作 所 要 求 的 权限 。 触 发 器 是 在 其 
创建 者 的 权限 下 执行 。 





例 8.34 ”考虑 执行 图 6-15 的 插入 语句 所 需要 的 权限 ， 该 语句 再 次 在 图 8-25 中 生成 。 首 先是 
插入 到 关系 Studio 中 的 语句 ， 所 以 需要 Studio 的 INSERT 权 限 。 但 是 ， 既 然 插 入 指定 的 只 是 
属性 name 的 成 分 , 那么 拥有 关系 Studio 的 INSERT 权 限 或 INSERT (name ) 权限 都 是 可 以 的 。 
第 二 个 权限 仅仅 允许 插 人 指定 了 成 分 name 的 Studio 元 组 ， 这 些 元 组 的 其 他 成 分 接受 的 是 缺 省 
值 或 NULL， 如 图 8-25。 

1) INSERT INTO Studio(name) 


SELECT DISTINCT studioName 
FROM Movie 


WHERE studioName NOT IN 
(SELECT name 
FROM Studio) ; 





图 8-25 加 入 新 制 片 厂 


但 是 ,注意 到 图 8-25 的 插入 语句 还 包括 两 个 子 查 询 ， 这 两 个 子 查询 分 别 开 始 于 第 2 行 和 第 5 
行 。 为 了 执行 这 些 选 择 语句 ， 子 查询 要 求 必需 的 权限 。 因 此 ， 包 含 在 FROM 子 句 中 的 两 个 关系 
Movie 和 Studio 需 要 SELECT 权限 。 要 注意 的 是 ， 仅 仅 因 为 拥有 stuqio 的 INSERT 权 限 并 不 
意味 着 拥有 Studio 的 SELECT 权限 , 反之 亦 然 。 既 然 选 择 的 只 是 Movie 和 Studio 的 特殊 属性 ， 
那么 拥有 Movie 的 SELECT (studioname ) 权限 和 studio 的 SELECT (name) 权限 或 者 拥 
有 包含 这 些 属 性 的 属性 列表 的 权限 就 足够 了 。 口 
8.7.2 创建 权限 

前 面 已 经 看 到 SQL 权限 是 什么 ， 并 且 也 知道 了 SQL 操作 的 执行 必须 要 有 相应 的 权限 。 现 在 
学 习 如 何 取得 执行 一 个 操作 的 必要 权限 。 取 得 权限 有 两 个 方面 : 最 初 是 如 何 创建 的 ， 以 及 如 何 
从 一 个 用 户 传 递 到 另 一 个 用 户 。 这 里 只 讨论 初始 化 ， 权 限 的 传递 将 在 8.7.4 节 讨论 。 

首先 ，SQL 元 组 如 模式 或 模块 都 有 一 个 属 主 。 属 主 拥 有 其 所 属 事物 的 所 有 权限 。SQL 中 建 
立 属 主 身份 的 三 种 情况 是 : 

1. 假定 模式 创建 时 ， 模 式 和 所 有 的 表 ， 以 及 该 模式 中 其 他 的 模式 元 素 的 所 有 权 都 属于 创建 
这 个 模式 的 用 户 。 这 样 这 个 用 户 拥有 模式 元 素 的 所 有 可 能 的 权限 。 

2. 会 话 被 CONNECT 语 句 初 始 化 时 ， 有 机 会 用 AUTHORIZATION 子 名 指定 用 户 。 例 如 ， 连 
接 语 句 | 

CONNECT TO Starfleet-sql-server AS conni 

AUTHORIZATION kirk; 

表示 用 户 kirk 创 建 了 一 个 连接 到 名 字 为 Starfleet-sql-server 的 SQL 服务 器 的 链 路 
conn1。 也 许 ，SQL 的 实现 将 验证 用 户 名 是 有 效 的 ， 例 如 通过 询问 密码 。 也 可 以 将 密码 包含 在 
AUTHORIZATION 子 名 中 ， 如 8.3.5 节 讨论 的 那样 。 这 种 方式 有 点 不 安全 ， 因 为 密码 可 以 被 别人 
从 Kirk 的 背后 看 到 。 

3. 模块 创建 时 ， 可 通过 AUTHORIZATION 子 句 选择 其 属 主 。 例 如 ， 模 块 创建 语句 中 的 子 句 

AUTHORIZATION picard; 


使 得 用 户 picard 成 为 该 模块 的 属 主 。 模 块 也 可 以 不 指定 属 主 ， 这 种 情况 下 模块 公开 执行 ， 
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执行 模块 中 的 任何 操作 所 必需 的 权限 必须 从 别处 取得 ， 例 如 在 模块 执行 过 程 中 连接 和 会 话 与 用 
户 的 联结 。 
8.7.3 检查 权限 的 处 理 

如 上 所 述 ， 每 个 模块 、 模 式 和 会 话 有 一 个 相关 用 户 。 用 SQL 术语 来 说 就 是 ， 每 个 都 有 一 个 
相关 的 授权 ID。 任 何 SQL 操 作 包 括 两 部 分 : 

1. 数据 库 元 素 ， 操 作 将 在 其 上 执行 。 

2. 产生 操作 的 代理 。 

对 代理 有 效 的 权限 来 自 一 个 叫做 当前 授权 了 D 的 特定 授权 ID。 这 个 ID 可 以 是 

a) 模块 授权 ID， 如 果 代 理 正在 执行 的 模块 有 一 个 授权 ID， 否 则 的 话 就 是 

b) 会 话 授权 ID。 

只 要 当前 授权 ID 拥有 执行 操作 所 涉及 到 的 数据 库 元 素 所 必需 的 权限 时 ， 可 以 执行 这 个 SQL 
操作 。 

例 8.35 为 了 明白 检查 权限 的 机 制 ， 重 新 考虑 例 8.34。 假 定 所 引用 的 表 一 一 Movie 和 
studio 一 一 是 用 户 janeway 创 建 和 拥有 的 模式 Movieschema 的 一 部 分 。 这 样 ， 用 户 janeway 拥 
有 这 些 表 和 模式 MovieSchema 中 任何 其 他 元 素 的 所 有 权限 。 他 可 以 通过 8.7.4 节 描述 的 机 制 将 
一 些 权 限 授 权 给 别人 ,但 是 目前 假定 还 没有 授权 给 任何 人 。 例 8.34 的 插入 执行 方式 有 好 几 种 。 

1. 用 户 janeway 创 建 了 一 个 包含 AUTHORIZATION janeway 子 句 的 模块 ， 这 个 插入 可 以 
作为 模块 的 一 部 分 来 执行 。 模 块 授权 ID ， 如 果 有 的 话 ， 通 常 变 为 当前 授权 ID 。 接 着 ， 模 块 和 
它 的 SQL 插 入 语句 的 权限 几乎 与 用 户 janeway 拥 有 的 权限 相同 ， 包括 了 表 Movie 和 studio 的 
所 有 权限 。 

2. 插入 可 能 是 一 个 没有 属 主 的 模块 的 一 部 分 。 用 户 janeway 在 CONNECT 语 句 中 使 用 
AUTHORIZATION janeway 子 句 打 开 了 一 个 连接 。 现 在 ，janeway 再 次 成 为 授权 ID， 所 以 插 
人 语句 拥有 所 需 的 所 有 权限 。 

3. 用 户 janeway 将 表 Movie 和 studio 的 所 有 权限 授权 给 用 户 sisko， 或 是 代表 “所 有 用 户 ” 
的 特殊 用 户 PUBLIC。 插入 语句 存在 于 带 有 子 句 


AUTHORIZATION sisko 413 


的 模块 中 。 由 于 当前 授权 ID 现在 是 sisko， 该 用 户 拥有 所 需 的 权限 ， 故 插 人 再 次 被 允许 。 

4. 同 (3 )， 用 户 janeway 已 经 将 所 需 的 权限 给 了 用 户 sisko。 插 人 语句 存在 于 没有 属 主 的 模 
块 中 ， 在 一 个 会 话 中 执行 ， 该 会 话 的 授权 ID 由 AUTHORIZaATION sisko 子 句 设置。 这 样 ， 当 
前 授权 ID 是 sisko 且 这 个 ID 拥 有 所 需 的 权限 。 


心 
一 
N 





口 


例 8.35 说 明了 几 条 准则 。 将 其 摘要 如 下 : 

“ 如 果 数 据 的 属 主 与 拥有 当前 授权 ID 的 用 户 是 同一 个 的 话 ， 所 需 的 权限 通常 总 可 以 得 到 。 
EXE (1) 和 (2) 说 明了 这 一 点 。 

* 如 果 数 据 的 属 主 把 这 些 权 限 授 给 拥有 当前 授权 ID 的 用 户 ， 或 者 这 些 权限 被 授 给 用 户 
PUBLIC， 所 需 的 权限 也 可 得 到 。 情 况 (3) 和 (4 ) 说 明了 这 一 点 。 

“数据 的 属 主 ， 或 者 已 经 取得 数据 权限 的 用 户 执行 该 模块 使 得 所 需 权 限 都 可 得 到 。 当 然 ， 
用 户 需 要 模块 本 身 的 EXECUTE 权 限 。 情 况 (1) 和 (3 ) 说 明了 这 点 。 

* 如 果 一 个 会 话 的 授权 ID 是 拥有 所 需 权 限 的 用 户 的 授权 ID 时 ， 在 该 会 话 中 执行 一 个 公用 的 
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模块 是 合法 执行 这 个 操作 的 另 一 种 方式 。 情 况 (2) 和 (4 ) 说 明了 这 点 。 
8.7.4 授权 

在 例 8.35 中 看 到 了 用 户 (也 就 是 ， 授 权 ID ) 拥有 所 需 权限 的 重要 性 。 但 是 目前 为 止 ， 拥 有 
数据 库 元 素 权 限 的 惟一 方式 是 成 为 创建 者 和 元 素 的 属 主 。SQL 提 供 了 GRANT 语句 以 允许 一 个 用 
户 将 权限 授 给 另 一 个 用 户 。 第 一 个 用 户 仍 然 保留 了 所 授予 的 权限 。 因 此 ，GRANT 被 认为 是 “ 复 
制 权 限 ”。 

权限 的 授予 与 复制 之 间 有 一 个 重要 的 区 别 。 每 个 权限 有 一 个 相关 的 授权 选项 ( grant option )。 
也 就 是 说 ， 用 户 可 以 拥有 一 个 权限 ， 如 带 有 “授权 选项 ”的 表 Movie 上 的 SELECT 权限 。 而 第 
二 个 用 户 可 以 有 相同 的 权限 ， 但 没有 “授权 选项 "。 于 是 ， 第 一 个 用 户 可 以 将 Movie 的 
SELECT 权限 授权 给 第 三 个 用 户 ， 甚 至 授权 时 可 以 有 也 可 以 没有 授权 选项 。 但 是 ， 第 二 个 用 户 

414] 没有 授权 选项 ， 所 以 他 不 可 以 将 Movie 的 SELECT 权限 授权 给 其 他 人 。 如 果 第 三 个 用 户 以 后 得 
到 这 个 带 授 权 选 项 的 相同 权限 ， 那 么 这 个 用 户 还 可 以 将 权限 授权 给 第 四 个 用 户 ， 可 以 有 或 没有 
授权 选项 ， 等 等 。 

授权 选项 由 下 面 的 元 素 组 成 : 

1. 关键 字 GRANT。 

2. 一 个 或 多 个 权限 列表 ， 如 SELECT 或 INSERT (name )。 关 键 字 ALL PRIVILEGES 可 以 
选择 性 地 出 现在 这 儿 ， 它 表示 对 正在 讨论 的 数据 库 元 素 (下面 第 四 点 提 到 的 元 素 ) 授权 者 可 合 
法 授予 的 所 有 权限 。 

3. 关键 字 ON。 

4. 数据 库 元 素 。 这 个 元 素 一 般 是 一 个 关系 ， 或 者 是 基本 表 或 是 视图 。 也 可 以 是 没有 讨论 过 
的 域 或 别 的 元 素 ( 见 8.3.2 节 的 方 框 “ 更 多 的 模式 元 素 ”)， 不 过 这 种 情况 下 元 素 名 之 前 必须 带 有 
保留 字 DOMAIN 或 其 他 适当 的 保留 字 。 

5. 保留 字 To。 

6. 一 个 或 多 个 用 户 列 表 (授权 ID )。 

7. 保留 字 WITH GRANT OPTION， 这 是 可 选 的 。 

即 ， 授 权 语 名 的 格式 如 下 : 
GRANT <privilege list> ON <database element> TO <user list> 

其 后 也 可 以 加 上 WITH GRANT OPTION, 

为 了 合法 地 执行 这 条 授权 语句 ， 执 行 它 的 用 户 必须 拥有 被 授予 的 权限 ， 而 且 这 些 权限 还 必 
须 带 有 授权 选项 。 但 是 ， 授 权 者 可 以 拥有 比 授 出 的 权限 更 通用 的 权限 ( 带 有 授权 选项 )。 例 如 ， 
表 Studio 的 INSERT (name) 权限 被 授 出 ,同时 授权 者 拥有 表 studio 更 通用 的 带 有 授权 选 
项 的 权限 INSERT。 

例 8.36 用 户 janeway 是 Movieschema 模 式 的 属 主 ， 该 模式 包括 表 


Movie(title, year, length, inColor, studioName, producerC#) 
Studio(name, address, presC#) 


Janeway 将 表 Studio 的 INSERT 和 SELECT 权限 以 及 表 Movie 的 SELECT 权限 授予 了 用 户 
kirk 和 picard。 其 至 包括 这 些 权 限 的 授权 选项 。 授 权 语 句 如 下 : 
GRANT SELECT, INSERT ON Studio TO kirk, picard 
WITH GRANT OPTION; 


GRANT SELECT ON Movie TO kirk, picard 
WITH GRANT OPTION; 


现在 ，picard 授 予 用 户 sisko 相 同 的 权限 ， 但 是 没有 授权 选项 。picarad 执 行 的 语句 为 : 


GRANT SELECT, INSERT ON Studio TO sisko; 

GRANT SELECT GN Movie TO sisko; 

Kitrk 授 予 sisko 图 8-25 所 需 的 最 少 权 限 ， 即 Studio 的 SELECT 和 INSERT (name) APR 
及 Movie 的 SELECT 权限 。 语 名 为: 


GRANT SELECT, INSERT(name) ON Studio TO sisko; 
GRANT SELECT ON Movie TO sisko; 


注意 到 sisko 从 两 个 不 同 用 户 处 接受 了 Movie 和 Studio 的 SELECT 权限 。 他 还 两 次 接受 
了 Studio 的 INSERT(name) 权 限 : 直接 从 kirk 处 获得 和 从 picard 处 获得 的 更 广泛 的 
INSERT 权 限 。 口 


8.7.5 授权 图 . 

由 于 授权 网 的 复杂 以 及 一 系列 授权 产生 的 重合 权限 ， 用 授权 图 (Grant diagram) 表示 授权 
很 有 意义 。SQL 系 统 维护 这 个 图 并 跟踪 权限 和 它们 的 起 始点 〈 以 防 权 限 被 收回 ， 见 8.7.6 节 )。 

授权 图 的 节点 对 应 一 个 用 户 和 一 个 权限 。 要 注意 带 或 者 不 带 授权 选项 的 权限 必须 用 两 个 不 
同 的 节点 表示 。 如 果 用 户 U 将 权限 P 授 予 用 户 Y， 这 个 授权 是 基于 U 拥 有 权限 QO ( C 可 以 是 带 授 权 
选项 的 P， 或 是 P 的 带 有 授权 选项 的 泛 化 )， 那 么 从 节点 LVWOC 到 节点 WP 画 一 条 弧 。 

例 8.37 ”8-26 显 示 了 例 8.36 的 一 系列 授权 语句 产生 的 授权 图 。 这 里 使 用 了 一 个 约定 : AP 
权限 组 合 后 ， 一 个 * 表 示 该 权限 带 有 授权 选项 ， 而 且 ， 用 户 权 限 组 合 之 后 的 #* 表 明了 该 权限 来 
自 正在 讨论 的 数据 库 元 素 的 所 有 权 而 不 是 由 于 别处 的 权限 授予 。 在 8.7.6 节 讨论 收 权时 这 个 区 别 




















4 一 一 
很 重要 。 被 标 两 个 星 的 权限 自动 包括 了 授权 选项 。 口 
Janeway aneway aneway Janeway 
SELECT INSERT SELECT INSERT 
on Movie on Movie on Studig on Studio 
k*k žk žk ** 
Kirk \ Picard 
SELECT SELECT 
on Movie on Movie 
* * 
Picard 
SELECT 
9 on Studig 
* 
Kirk S Picard 
INSERT INSERT 
on Studio on Studio 
* * 
| Sisko Sisko Sisko Sisko 
INSERT (name) SELECT SELECT INSERT 
| on Studio on Movie on Studig on Studio 


图 8-26 授权 图 
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8.7.6 销 权 ' 

被 授予 的 权限 可 以 随时 收回 。 事 实 上 ， 权 限 的 收回 可 能 要 求 级 联 。 级 联 的 意思 是 ， 当 收回 
已 经 被 传递 给 其 他 用 户 的 带 授 权 选 项 的 权限 时 ， 可 能 也 要 收回 那些 被 此 授权 选项 授予 的 权限 。 
收 权 语句 的 简单 形式 如 下 : 

1. 保留 字 REVOKE。 

2. 一 个 或 多 个 权限 列表 。 

3. 保留 字 ON。 

4. 数据 库 元 素 ， 如 授权 语句 中 描述 的 (4 )。 

5. 保留 字 FROM。 

6. 一 个 或 多 个 用 户 的 列表 ( 授权 ID )。 

即 ， 收 权 语句 格式 为 : 

REVOKE <privilege list > ON <database element> FROM <user list> 。 

不 过 ， 语 句 中 还 需 加 入 下 面 所 列 的 选项 之 一 : 

1. 以 CASCADE 结 尾 的 语句 。 如 果 这 样 的 话 ， 那 么 当 收 回 指定 的 权限 时 ， 也 要 收回 那些 仅 
仅 由 于 要 收回 的 权限 而 被 授予 的 权限 。 更 严格 地 说 ， 如 果 用 户 U 要 从 用 户 V 处 收回 权限 Pp， 基于 
权限 @ 是 属于 用 户 U， 那 么 在 授权 图 中 删 去 从 节点 U/0 到 节点 VP 的 弧 。 现 在 ， 那 些 无 法 从 某 个 
属 主 节点 (被 标 为 两 颗 星 的 节点 ) 到 达 的 节点 也 被 删 去 。 

2. 以 RESTRICT 结 尾 的 语句 ， 意 味 着 : 如 果 在 前 一 项 描述 的 级 联 规则 由 于 要 收回 的 权限 被 
传递 给 其 他 人 而 造成 了 任何 权限 收回 ， 那 么 该 销 权 语句 将 不 被 执行 。 

允许 用 REVOKE GRANT OPTION FOR 代替 REVOKE， 这 种 情况 只 保留 自身 的 核心 权限 ， 
但 是 它们 授予 他 人 的 授权 选项 将 被 删除 。 可 能 不 得 不 修改 节点 、 重 定向 弧 或 创建 新 的 节点 来 反 
映 受 影响 的 用 户 的 变化 。REVOKE 的 形式 也 可 以 与 CASCADE 或 RESTRICT 结 合 使 用 。 

例 8.38 继续 讨论 例 8.36， 假定 janeway 使 用 下 面 的 语句 收回 她 授予 bicard 的 权限 : 





REVOKE SELECT, INSERT ON Studio FROM picard CASCADE; 

REVOKE SELECT ON Movie FROM picard CASCADE; 

删除 图 8-26 中 从 janeway 权 限 到 picara 权 限 对 应 的 弧 。 既 然 规定 了 CASCADE， 还 要 看 一 
下 在 图 中 是 否 存 在 权限 无 法 经 标 为 双星 的 权限 ( 基于 属 主 的 权限 ) 到 达 。 检 查 图 8-26， 看 到 
picard 的 权限 不 再 能 从 双星 节点 到 达 ( 如 果 还 有 另外 的 路 径 到 达 picard 节 点 ， 那 么 也 是 可 
以 到 达 )。sisko 对 于 Stuqdio 的 INSERT 权 限 也 是 不 可 达 的 。 因 此 不 仅 从 图 中 删除 picargd 的 
权限 ， 还 要 删除 sisko 的 INSERT 权 限 。 

注意 没有 删除 sisko 关 于 Movie 和 studio 的 SELECT 权 限 或 者 他 关于 studio 的 
INSERT (name) 权限 ， 因 为 它们 都 可 以 通过 kirk 的 权限 从 janeway 基 于 属 主 的 权限 到 达 。 最 
后 的 授权 图 见 图 8-27。 口 


例 8.39 用 抽象 的 例子 阐述 微妙 之 处 。 首 先 ， 删 除了 通用 权限 p， 没 有 删除 p 的 特例 。 例 如 ， 
考虑 下 面 的 系列 步骤 ， 为 何 用 户 U， 关 系 R 的 属 主 ， 将 关系 R 的 INSERT 权 限 授予 用 户 V， 而 且 
还 授予 了 R 的 INSERT (A) 权限 。 


Step By Action 
1 U GRANT INSERT ON R TO V 
2 U GRANT INSERT(A) ON R TO V 
3 U REVOKE INSERT ON R FROM V RESTRICT 
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当 U 从 V 中 删除 INSERT 权 限时 ，INSERT (A) 权限 仍 被 保留 。 第 二 步 和 第 三 步 之 后 的 授权 
图 见 图 8-28。 






Janeway 


INSERT 
on Movie 







Kirk 
INSERT 
on Studio 








Sisko 


INSERT (name) 
on Studio 


图 8-27 删除 bicard 权 限 的 授权 图 


注意 到 第 二 步 之 后 对 于 用 户 V 拥 有 的 相似 但 不 同 的 权限 有 两 个 独立 的 节点 。 而 且 第 三 步 的 
RESTRICT 选 项 并 没有 阻止 销 权 ， 因 为 V 没 有 将 这 个 选项 授予 别人 。 事 实 上 ，V 不 可 能 授 出 任何 
权限 ， 因 为 V 得 到 它们 时 没有 授权 选项 。 口 


INSERT an 
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53 W 
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aa Ss 
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(a) 第 二 步 之 后 (b) 第 三 步 之 后 
图 8-28 收回 通用 权限 保留 特定 权限 


例 8.40 ”现在 考虑 类 似 的 例子 ，U 授 予 V 带 授权 选项 的 权限 p， 接 着 只 收回 授权 选项 。 本 例 
中 ， 必 须 改变 V 的 节点 以 反映 授权 选项 的 删除 ， 而 且 由 V 作 出 的 任何 授权 必须 取消 ， 这 通过 清 
除 从 WP 节点 发 出 的 弧 完 成 。 步 又 顺序 如 下 : 


Step By Action 
1 U GRANT p TO V WITH GRANT OPTION 
2 V GRANT p TOW 
3 U _ REVOKE GRANT OPTION FOR p FROM V CASCADE 
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第 一 步 ，U 授 予 V 带 授权 选项 的 权限 p。 第 二 步 ，V 使 用 授权 选项 将 p 授 予 W。 此 时 授权 图 如 
图 8-29(a)。 l 


(a) 第 二 步 之 后 b 第 三 步 之 后 
图 8-29 收回 授权 选项 保留 基本 权限 


接着 第 三 步 ，U 从 V 处 收回 权限 p 的 授权 选项 ， 但 是 没有 收回 权限 本 身 。 因 此 ， 取 消 了 节点 
VY 和 p 的 星 。 但 是 没有 * 的 节点 不 可 能 发 出 一 条 弧 线 , 因为 没有 * 的 节点 不 可 能 是 权限 授权 的 起 点 。 
这 样 ， 还 必须 删除 从 节点 WP 到 节点 WP 的 弧 线 。 

现在 ,节点 Wip 没 有 从 代表 权限 p 开 始 的 ** 节 点 到 Wip 的 路 径 。 结 果 ， 从 图 中 删除 了 节点 
W/p。 但 是 ， 节 点 Vip 仍 保留 ， 它 只 是 被 修改 了 ， 删 除了 代表 授权 选项 的 *。 最 后 的 授权 图 见 图 
8-29(b)。 口 


8.7.7 习题 
习题 8.7.1 指出 执行 下 列 查 询 需 要 何 种 权限 。 每 种 情况 ， 说 出 最 特别 的 权限 以 及 一 般 性 的 
权限 就 足够 了 。 
a) 图 6-5 的 查询 
b) 图 6-7 的 查询 
c) 图 6-15 的 插入 
d) 例 6.36 的 删除 
e) 例 6.38 的 更 新 
f) 图 7-5 中 基于 元 组 的 约束 
g) 例 7.13 的 断言 
* 习题 8.7.2 ”显示 图 8-30 中 给 出 的 操作 序列 步骤 (4) 至 (6) 的 每 一 步 执行 以 后 的 授权 图 。 假 设 4 
是 权限 p 所 指向 关系 的 属 主 。 


Step By Action 
1 A GRANT p TO B WITH GRANT OPTION 
GRANT p TO C 
GRANT p TO D WITH GRANT OPTION 
GRANT p TO B, C, E WITH GRANT OPTION 
REVOKE p FROM D CASCADE 
REVOKE p FROM C CASCADE 


图 8-30 习题 8.7.2 的 操作 序列 
习题 8.7.3 如 图 8-31 所 示 ， 显 示 步 又 (5) 以 及 (6) 以 后 的 授权 图 。 假 设 4 是 权限 p 所 指向 关系 
的 属 主 。 


* 





Doa w o 
mod ym 


Action 


GRANT p TO B, E WITH GRANT OPTION 
GRANT p TO C WITH GRANT OPTION 

GRANT p TO D WITH GRANT OPTION 

GRANT p TO C 

GRANT p TO D WITH GRANT OPTION 

REVOKE GRANT OPTION FOR p FROM B CASCADE 


图 8-31 习题 8.7.3 的 操作 序列 
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习题 8.7.4 显示 经 过 以 下 步 又 以 后 最 终 的 授权 图 ， 假 设 4 是 权限 z 所 指向 关系 的 属 主 。 


Step By Action 
1 A GRANT p TO B WITH GRANT OPTION 
2 B GRANT p TO B WITH GRANT OPTION 
3 A REVOKE p FROM B CASCADE 





8.8 小 结 


*KESQL: 不 采用 基本 查询 界面 来 表达 SQL 查询 以 及 修改 ， 而 是 在 一 个 传统 的 宿主 语言 
中 藤 套 SQL 查询 ， 通 常 编 写 这 样 的 程序 更 为 有 效 。 处 理 器 将 挫 套 SQL 语句 转换 成 合适 的 
宿主 语言 的 函数 调用 。 

。 阻 抗 不 匹配 : SQL 的 数据 模型 和 传统 的 宿主 语言 的 数据 模型 有 着 很 大 的 不 同 。 因 此 ， 两 
者 之 间 信 息 的 传递 是 通过 共享 变量 来 实现 的 ， 共 享 变量 可 以 表示 程序 中 SQL 部 分 中 元 组 
的 组 成 分 量 。 

* 游标: 游标 是 一 个 SQL 变 量 ， 它 指示 关系 中 的 一 个 元 组 。 游 标 遍 历 关系 的 每 个 元 组 ， 使 
得 宿主 语言 与 SQL 的 连接 变 得 较为 容易 。 检 索 到 当前 元 组 的 组 成 分 量 后 存 人 共享 变量 中 ， 
并 使 用 宿主 语言 进行 处 理 。 

“动态 SQL: 宿主 程序 中 不 是 嵌 套 特定 的 SQL 语句 ， 而 是 创建 字符 串 ， 由 SQL 系统 将 该 字 
符 串 作为 SQL 语句 解释 并 执行 。 

“永久 存储 模块 : 可 以 建立 一 些 过 程 和 函数 的 集合 ， 作 为 数据 库 模 式 的 一 部 分 。 这 些 过 程 
和 函数 是 用 拥有 所 有 常见 的 控制 原 语 的 特殊 语言 编写 ， 如 同 SQL 语 句 。 它 们 可 以 由 灸 套 
SQL 或 者 一 个 基本 查询 界面 触发 。 

。 数 据 库 环境 : 使 用 SQL DBMS 的 安装 就 创建 了 一 个 SQL 环境 。 在 此 环境 中 ， 数 据 库 元 素 
(比如 关系 ) 组 成 (数据库 ) 模式 、 日 志 以 及 簇 。 日 志 是 模式 的 集合 ， 而 簇 是 用 户 可 以 看 
到 的 最 大 的 元 素 集合 。 

“客户 /服务 器 系统 : 一 个 SQL 客户 通过 创建 一 个 连接 ( 两 个 进程 之 间 的 链接 ) 和 会 话 ( 操 
作 序 列 ) 来 建立 到 服务 器 的 连接 。 在 会 话 中 执行 的 代码 来 自 一 个 模块 ， 此 模块 的 执行 叫 
做 SQL 代理 。 

“调用 层 接口 : 有 一 个 称 做 SQL/CLI 或 者 ODBC 的 标准 函数 库 可 以 链接 到 任何 一 个 C 程 序 。 
功能 与 典 套 SQL 相似 ， 但 它 不 需要 预 处 理 器 。 

“JDBC: Java 数 据 库 连 接 系统 与 CLI 类 似 ， 只 不 过 它 使 用 了 面向 对 象 风格 的 Java。 

“并 发 控制 : SQL 提 供 了 两 种 机 制 来 防止 两 个 操作 彼此 干扰 : 事务 和 游标 限制 。 游 标 限 制 
包括 声明 一 个 游标 是 “不 敏感 ”的 ， 在 此 情况 下 ， 对 关系 的 任何 变化 游标 都 不 会 看 到 。 

“事务 : SQL 人 允许 程序 员 把 SQL 语句 组 成 事务 ， 这 些 事务 可 以 提交 或 者 回 滚 ( 天 折 )。 事 务 
的 回 滚 或 者 是 应 用 程序 为 了 取消 所 作 的 变动 而 做 的 ， 或 者 是 系统 为 了 保证 原子 性 和 独立 
性 而 做 的 。 

“隔离 级 别 : SQL 允许 事务 以 四 个 隔离 级 别 运 行 ， 从 最 串 行 的 到 最 不 串 行 的 :“ 串 行 化 ” 
(事务 必须 完全 在 另 一 个 事务 之 前 或 之 后 运行 )、“ 读 可 重复 ”( 查询 得 到 的 每 个 元 组 ， 在 
此 查询 再 次 被 执行 时 必须 重 现 )、“ 读 提交 ”( 只 有 那些 被 已 提交 事务 写 人 的 元 组 才 可 以 被 
这 个 事务 看 到 )、“ 读 不 提交 ”( 对 事务 可 以 看 到 的 信息 不 加 限制 )。 

。 只 读 游标 和 事务 : 游标 和 事务 可 以 声明 为 只 读 的 。 该 声明 保证 了 游标 和 事务 不 会 对 数据 
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库 造 成 任何 变动 ， 因 此 ， 通 知 SQL 系 统 : 该 事务 或 游标 不 会 以 可 能 违反 不 敏感 性 、 串 行 
性 或 别 的 要 求 的 方式 来 影响 其 他 的 事务 或 游标 。 

* 权限 : 出 于 安全 性 的 考虑 ，SQL 系 统 允 许 对 数据 库 元 素 拥有 多 种 不 同 的 权限 。 这 些 权 限 
包括 选择 〈 读 )、 插 人 、 删 除 、 更 新 关系 的 权力 ， 还 包括 引用 关系 的 权力 〈 在 限制 的 条 件 
下 引用 他 们 )， 以 及 创建 触发 器 的 权力 。 

“授权 图 : 权限 可 以 被 其 属 主 转 授 给 其 他 用 户 或 者 一 般 用 户 PUBLIC， 如 果 授 权 的 时 候 带 
有 授权 选项 ,那么 ， 这 些 权 限 可 以 继续 往 下 传 。 权 限 可 以 收回 。 授 权 图 是 一 种 非常 有 用 
的 方法 ， 用 以 记 住 足够 多 的 授权 和 收 权 的 历史 记录 来 跟踪 谁 拥有 何 种 权限 以 及 他 们 是 从 
何 处 获得 的 这 些 权 限 。 
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第 9 章 面向 对 象 查询 语言 


本 章 将 讨论 把 面向 对 象 程序 设计 方法 融入 查询 语言 的 两 种 途径 。OQL (Object Query 
Language ) 是 一 种 面向 对 象 数 据 库 的 标准 查询 语言 。 它 将 SQL 的 高 层次 、 说 明 性 的 编程 方法 和 
面向 对 象 的 编程 范例 结合 起 来 。OQL 对 ODL (已 在 4.2 节 中 介绍 过 的 一 种 面向 对 象 的 数据 描述 
语言 ) 所 描述 的 数据 对 象 进 行 操作 。 

如 果 说 0OQL 试 图 将 SQL 中 最 好 的 部 分 引入 面向 对 象 的 领域 ， 那 么 SQL-99 标 准 所 具有 的 相 
对 较 新 的 对 象 -关系 特征 ， 则 是 将 面向 对 象 方 法 引入 到 关系 领域 。 在 某 种 意义 上 ， 两 种 语言 
着 相同 的 地 方 ， 但 对 某 些 特 定 的 事情 ， 使 用 其 中 一 种 语言 处 理会 比 另 一 种 更 简单 些 。 

本 质 上 ， 两 种 面向 对 象 的 方法 的 主要 区 别 在 于 他 们 对 于 关系 的 重要 性 的 理解 。 以 ODL 与 OQL 
为 中 心 的 面向 对 象 的 方式 ， 认 为 关系 并 不 是 很 重要 。 因 此 ， 在 OQL 中 我 们 可 以 发 现 各 种 类 型 的 对 
象 ， 其 中 有 一 些 是 结构 ( 即 关 系 ) 的 集合 或 包 。 对 于 SQL 而 言 ， 依 旧 认 为 关系 是 最 基本 的 数据 结 
构 概 念 。 在 4.5 节 所 介绍 的 对 象 -关系 方法 中 ， 关 系 模型 的 扩展 是 通过 人 允许 使 用 更 复杂 的 关系 元 组 
和 属性 来 实现 的 。 这 样 ， 对 象 和 类 就 可 以 被 引入 到 关系 模型 中 , 但 总 是 在 关系 的 上 下 文中 。 


9.1 OQL 简 介 


OQL ( Object Query Language )， 向 我 们 提供 了 一 种 类 似 SQL 的 符号 化 查询 表达 式 。 值 得 
注意 的 是 ，OQL 将 作为 对 诸如 C++，Smalltalk 和 Java 等 面向 对 象 的 宿主 (host) 语言 的 扩展 。 
对 象 由 OQL 查 询 以 及 传统 的 宿主 语言 语句 来 处 理 。 宿 主语 言语 句 与 OQL 查 询 之 间 的 结合 不 需 通 
过 显 式 的 值 传递 来 实现 ， 这 种 方式 优 于 8.1 节 所 讨论 的 将 SQL 舱 人 宿主 语言 的 方式 。 

9.1.1 一 个 面向 对 象 的 电影 例子 

为 了 说 明 OQL 的 风格 ,我们 引入 一 个 实例 ， 它 包含 我 们 已 经 熟悉 的 类 Movie，star 和 和 
studio。 我 们 将 使 用 如 图 4-3 所 示 的 定义 ， 再 增加 一 些 键 以 及 扩展 声明 。 如 图 4-4 所 示 ， 只 有 
Movie 包 含 方法 。 而 完整 例子 如 图 9-1 所 示 。 

9.1.2 路 径 表 达 式 

类 似 于 C 语 言 和 SQL， 我 们 通过 一 个 点 符号 来 访问 对 象 或 结构 的 成 分 。 通 用 的 规则 如 下 : 
如 果 a 表 示 一 个 属于 类 C 的 对 象 ，p 是 该 类 的 某 个 属性 、 关 系 或 方法 ， 那 么 a.p 表 示 p 作 用 于 a 的 结 
Ro B: 

1. 如 果 p 是 一 个 属性 ， 那 么 a.p 是 对 象 a 中 该 属性 的 值 ; 

2. 如 果 p 是 一 个 联系 ， 那 么 a.p 是 表示 通过 联系 p 与 对 象 a 相 关 的 对 象 或 对 象 的 集合 ; 

3. 如 果 p 是 一 个 方法 ( 可 能 有 参数 )， 那 么 a.p (…) 表 示 p 作 用 于 a 的 结果 。 

例 9.1 假设 nyMovie 表 示 类 型 Movie 的 一 个 对 象 ， 那 么 : 

。myMovie .length 的 值 是 该 电影 的 长 度 ， 也 就 是 myMovie 所 代表 的 Movie WAN 

length 属 性 的 值 。 

*myMovie.lengthInHours () 的 值 是 一 个 实数 ， 是 以 小 时 为 单位 的 电影 长 度 ， 通 过 将 

方法 lengthInHours 作 用 于 对 象 nyMovie 而 计算 得 到 的 。 

。myMovie.stars 的 值 是 通过 联系 stars 与 myMovie 相关 联 起 来 的 Star 对 象 的 集合 。 
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。 HikstmyMovie.starNames (myStars) 没 有 返回 值 ( 即 在 C++ 中 ， 这 种 表达 式 的 类 
型 是 空 值 )。 然 而 ， 这 有 一 个 副作用 ， 它 将 方法 starNames 的 输出 变量 myStars 的 值 设 
置 为 字符 串 的 集合 ， 那 些 字符 串 则 是 该 电影 中 所 有 影星 的 名 字 。 


class Movie 
(extent Movies key (title, year)) 
{ 
attribute string title; 
attribute integer year; 
attribute integer length; 
attribute enum Film {color,blackAndWhite} filmType; 
relationship Set<Star> stars 
inverse Star::starredIn; 
relationship Studio ownedBy 
inverse Studio::owns; 
float lengthInHours() raises(noLengthFound) ; 
void starNames(out Set<String>); 
void otherMovies(in Star, out Set<Movie>) 
raises(noSuchStar) ; 


}; 


class Star 


(extent Stars key name) 
{ 
attribute string name; 
attribute Struct Addr 
{string street, string city} address; 
relationship Set<Movie> starredIn 
inverse Movie: :stars; 


}; 


class Studio 
(extent Studios key name) 
{ 
attribute string name; 
attribute string address; 
relationship Set<Movie> owns 
inverse Movie: :ownedBy; 





图 9-1 面向 对 象 的 电影 数据 库 的 一 部 分 






箭头 与 点 

OQL 可 以 使 用 篇 头 符号 “->” 来 代表 点 符 导 。 这 种 习惯 继承 了 C 语 言 的 风格 ， 点 符 
号 与 葡 头 符号 都 可 以 获取 结构 的 某 个 成 分 。 然 而 ， 在 C 语 言 中 ,箭头 符号 与 点 特 号 略 有 
区 别 ， 而 在 OQL 中 二 者 是 一 样 的 。 在 C 语 言 中 ， 表 达 式 a .f 中 a 是 一 个 结构 类 型 ， 而 p-> 
f 中 p 是 一 个 指向 结构 类 型 的 指针 。 但 二 者 都 表示 该 结构 中 域 f 的 值 。 


在 保证 有 意义 的 前 提 下 ， 表 达 式 可 以 含有 多 个 点 符号 ,例如 : 如 果 myMovie 表 示 一 个 电 
影 对 象 ， 那 么 myMovie .ownedBy 表 示 拥 有 该 电影 的 Studio 对 象 。 而 myMovie. ownedBy. 
name 是 一 个 字符 串 ， 代 表 该 电影 公司 的 名 字 。 口 









9.1.3 OQL 中 Select-From-Where 表 达 式 

OQL 人 允许 使 用 类 似 于 SQL 查 询 语言 的 select-from-where 语 法 来 书写 查询 表达 式 。 例 如 ， 查 
询 影 片 Gone With the Wind 的 年 份 : 

SELECT m.year 

FROM Movies m 

WHERE m.title = "Gone With the Wind" 

可 以 看 到 ， 除 了 那个 字符 串 常量 的 双 引 号 外 ， 该 查询 很 类 似 于 SQL。 

通常 ，OQL 的 select-from-where 表 达 式 包含 : 

1. 关 键 字 SELECT， 后 接 一 列表 达 式 。 

2 关键 字 FROM， 后 接 一 个 或 多 个 变量 声明 。 一 个 变量 的 声明 可 以 为 : 

(a) 一 个 值 为 集 (collection ) 类 型 (如 : 集合 或 包 ) 的 表达 式 ; 

(b) 可 选 关 键 字 AS; 

(c) 变量 的 名 字 。 

典型 地 ，(a) 中 的 表达 式 是 某 些 类 的 扩展 ， 如 上 述 的 类 Movie 的 扩展 Movies。 一 个 扩展 就 
相当 于 SQL 的 FROM 子 句 中 的 关系 。 然 而 ， 也 可 以 将 生成 集 类 型 的 表达 式 ， 如 另 一 个 select- 
from-where 表 达 式 ， 放 到 变量 声明 中 。 

3. 关 键 字 WHERE 和 一 个 布尔 表达 式 。 同 SELECT 子 句 后 面 的 表达 式 一 样 ， 该 表达 式 只 可 以 
使 用 常量 或 在 FROM 子 句 中 声明 的 变量 。 除 了 不 等 号 用 “<> ”而 不 是 用 “1! -= ' 之 外 ， 比 较 操 作 
符 和 SQL 中 的 是 一 样 的 。 逻 辑 运算 符 和 SQL 中 的 一 样 ， 是 AND、OR 和 NOT。 

查询 产生 一 个 对 象 包 。 考 虑 FROM 子 句 中 所 有 可 能 的 变量 值 ， 我 们 通过 嵌 套 的 循环 来 计算 
这 个 包 。 如 果 有 任何 一 个 变量 值 的 组 合 满足 wHERE 子 句 中 的 条 件 ， 那 么 这 个 由 sELECT 子 句 描 
述 的 对 象 将 加 进 包 中 ， 最 后 得 到 的 这 个 包 就 是 select-from-where 语 句 的 结果 。 

例 9.2 一 个 更 为 复杂 OQL 查 询 : 

SELECT s.name 


FROM Movies m, m.stars s 
WHERE m.title = "Casablanca" 


这 个 查询 查找 电影 Casablanca 中 影星 的 姓名 。 注 意 FROM 子 句 中 各 项 的 顺序 首先 我 们 定 
义 类 Movie 的 任意 一 个 对 象 n， 这 是 通过 把 m 声 明 在 类 Movie 的 扩展 Movies 中 得 到 的 。 接着 ， 
对 于 m 的 每 个 值 ， 我 们 定义 s 为 一 个 Star 对 象 ， 作 为 电影 m 的 电影 明星 集合 m .stars 的 一 员 。 
也 就 是 ， 我 们 考虑 两 重 蔡 套 循 环 中 所 有 的 (m, s) 偶 对 ， 其 中 m 是 一 部 电影 ， 而 s 是 这 部 电影 中 
的 一 个 影星 。 其 等 价 的 描述 为 ; 


FOR each m in Movies DO 
FOR each s in m.stars DO 
IF m.title = "Casablanca" THEN 
add s.name to the output bag 


WHERE 子 句 将 我 们 的 考虑 限制 在 含有 特定 对 象 m 的 偶 对 上 ， 该 对 象 m 是 片 名 为 Casapzarca 的 
电影 对 象 。 因 此 ，SELECT 子 名 生成 满足 WHERE 子 句 条 件 的 (m, s) 偶 对 中 的 所 有 影星 对 象 s 的 
名 字 属 性 的 一 个 包 ( 在 本 例 的 情况 下 应 是 一 个 集合 ),。 这 些 名 字 是 集合 m.. stars 中 影星 的 名 字 ， 
其 中 .是 电影 Casablanca 的 电影 对 象 。 口 


9.1.4 修改 结果 的 类 型 
类 似 于 例 9.2 的 查询 ， 查 询 的 结果 是 生成 一 个 字符 串 的 包 。 也 就 是 说 ，OQL 和 SQL 中 的 默 
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认 方 式 一 样 ， 不 会 去 除 重复 的 结果 ， 除 非 指示 它 这 样 做 。 然 而 ， 如 果 我 们 想 这 样 做 的 话 ， 可 以 
强制 结果 为 集合 或 列表 。 
“与 SQL 类 似 ， 为 了 使 结果 变 为 一 个 集合 ， 可 以 在 SELECT 后 面 使 用 关键 字 DITSTINCT。 
“仍然 与 SQL 类 似 ， 为 了 使 结果 变 为 一 个 列表 ， 可 以 在 查询 的 末尾 加 上 ORDER BY, 


FROM 列表 的 替换 形式 
除了 在 FROM 子 多 中 使 用 SQL 风格 的 元 素 ( 即 一 个 集合 类 型 后 面 跟着 一 个 元 素 名 ) 之 
外 ，OQL 可 以 使 用 完全 等 价 的、 更 具有 还 辑 性 的 、 而 少 一 些 SQL 风 格 的 格式 。 我 们 可 以 


给 定 一 个 常用 的 元 素 名 ， 然 后 是 关键 字 IN， 最 后 是 集合 名 。 例 如 : 
FROM m IN Movies, s IN m.stars 
就 是 例 9.2 中 查询 中 一 个 等 价 的 FROM 子 名 。 
下 面 的 例子 将 阐述 正确 的 语法 。 
例 9.3 ”假设 我 们 查询 迪斯尼 电影 中 影星 的 名 字 。 如 下 的 查询 可 以 满足 要 求 。 如 果 在 几 个 
影片 中 出 现 同 一 位 影 是 ， 那 么 在 结果 中 去 除 重复 的 姓名 。 





SELECT DISTINCT s.name 
FROM Movies m, m.stars s 
WHERE m.ownedBy.name = "Disney" 


这 个 查询 的 策略 类 似 于 例 9.2。 我 们 仍然 考虑 以 两 重 嵌 套 循 环 得 到 的 所 有 由 电影 和 该 电影 
中 影星 组 成 的 偶 对 。 但 现在 ， 偶 对 (tm, s) 上 的 条 件 改 为 电影 公司 的 名 字 “Disney”， 其 Studio 
对 象 是 m. ownedBy。 口 


在 OQL 中 ，ORDER BY 子 句 类 似 于 SQL。 关 键 字 ORDER BY 后 面 紧 接 着 一 列表 达 式 。 对 碍 
询 结果 中 的 每 个 对 象 ， 计 算 第 一 个 表达 式 的 值 ， 并 根据 该 值 对 每 个 对 象 进行 排序 。 如 果 存 在 相 
等 的 值 ， 那 么 再 根据 第 二 个 表达 式 的 值 进行 排序 ， 如 此 类 推 。 与 SQL 类 似 ， 在 缺 省 情况 下 是 升 
序 ， 也 可 以 分 别 使 用 关键 字 ASc 或 DESc 来 选择 升序 或 降序 。 

例 9.4 ”假设 我 们 查询 迪斯尼 电影 的 集合 ， 但 要 求 结果 是 根据 影片 长 度 排序 的 一 个 列表 。 
如 果 有 相等 的 情况 ， 则 等 长 的 影片 再 根据 字母 序 进行 排序 。 该 查询 为 : 


SELECT m 

FROM Movies m 

WHERE m.ownedBy.name = "Disney" 
ORDER BY m.length, m.title 


在 前 三 行 中 , 我 们 考察 每 一 个 Movie 对 象 m。 如 果 那 些 拥有 这 部 电影 的 公司 名 是 “Disney”， 
那么 ， 整 个 对 象 m 将 成 为 输出 包 的 一 员 。 而 第 四 行 中 指明 ， 由 select-from-where 查 询 生 成 的 结果 
对 象 m 根 据 n. length ( 电影 的 长 度 ) 进行 排序 。 如 果 排 序 的 结果 中 有 相同 的 ， 那 么 再 根据 
m.title (电影 的 名 字 ) 进行 排序 。 这 样 ， 查 询 结 果 将 生成 Movi e 对 象 的 一 个 列表 。 g 


9.1.5 复杂 输出 类 型 

在 SELECT 子 句 中 的 元 素 不 一 定 是 简单 对 象 。 它们 可 以 是 任意 的 表达 式 ， 包 括 由 类 型 构造 
函数 生成 的 表达 式 。 例 如 ， 可 以 把 struect 类 型 构造 函数 作用 于 几 个 表达 式 ， 得 到 生成 这 些 结 
构 的 集合 或 包 的 select-from-where 查 询 语句 。 

例 9.5 假如 我 们 想得到 居住 在 同一 地 址 的 影星 的 偶 对 ， 可 以 通过 如 下 查询 : 


meas 


SELECT DISTINCT Struct(stari: s1, star2: s2) 
FROM Stars si, Stars s2 
WHERE sil.address = s2.address AND si.name < s2.name 


这 就 是 说 ， 我 们 考虑 影星 的 所 有 偶 对 ，s1 和 s2。 其 中 ，WHERBE 子 名 检查 他 们 是 否 有 相同 
的 地 址 ; 同时 依据 字母 序 检查 ， 第 一 个 影星 的 姓名 是 否 在 第 二 个 影星 之 前 。 这 样 就 不 会 生成 含 
有 同一 个 影星 出 现 两 次 的 偶 对 ， 也 不 会 生成 以 不 同 次 序 出 现 的 同一 对 影星 。 

每 一 个 经 过 两 遍 检查 的 偶 对 ， 都 会 生成 一 个 记录 结构 。 该 结构 的 类 型 是 一 个 有 两 个 域 的 记 
录 ， 分 别 是 star1 和 star2。 每 个 域 的 类 型 是 Star 类， 因为 给 这 两 个 域 提供 值 的 变量 s1 和 s2 
的 类 型 是 scar 类 型 。 也 就 是 说 ， 该 结构 类 型 的 规范 形式 为 : 

Struct{star1: Star, star2: Star} 

查询 结果 的 类 型 为 以 下 结构 的 集合 : 


Set<Struct{stari: Star, star2: Star}> 


口 


9.1.6 子 查询 

在 任何 一 个 集 出 现 的 地 方 ， 我 们 都 可 以 使 用 select-from-where 表 达 式 。 我 们 将 给 出 一 个 出 
现在 FROM 子 句 中 的 例子 。 其 他 一 些 子 查询 的 例子 将 在 9.2 节 中 给 出 。 

在 FROM 子 句 中 ， 可 以 使 用 子 查询 生成 一 个 集 。 于 是 我 们 可 以 生成 一 个 表示 这 个 集 的 元 素 
的 变量 ， 它 可 以 遍历 集 内 的 所 有 成 员 。 









长 度 为 1 的 SELECT 列表 是 特例 
注意 ， 当 一 个 SELECT 列表 仅 有 一 个 表达 式 时 ， 结 果 的 类 型 是 该 表达 式 类 型 的 值 的 

集合 。 然 而 ， 如 果 在 SELECT 列表 中 有 多 个 表达 式 ， 那 么 就 会 有 一 个 隆 式 结构 生成 ， 每 

个 表达 式 都 作为 这 个 结构 的 成 分 。 因 此 ， 即 使 我 们 让 例 9.5 的 查询 以 下 面 的 语句 开始 : 

SELECT DISTINCT stari: s1, star2: s2 

结果 的 类 型 将 会 是 : 


Set<Struct{starl: Star, star2: Star}> 















但 例 9.3 中 结果 类 型 是 Set<String>， 而 不 是 Set<Struct (name: String}>. 


例 9.6 ”让 我 们 重 做 例 9.3 中 的 查询 ， 该 查询 查找 出 现在 迪斯尼 公司 制作 的 电影 中 的 影星 。 
首先 ， 同 例 9.4 一 样 ， 通 过 以 下 查询 获得 迪斯尼 电影 的 集合 : 
SELECT m 


FROM Movies m 
WHERE m.ownedBy name = "Disney" 


我 们 可 以 利用 这 个 查询 作为 子 查询 语句 来 定义 一 个 集合 ， 使 得 一 个 表示 迪斯尼 制作 的 电影 
的 变量 可 以 遍历 该 集合 中 的 所 有 成 员 : 


SELECT DISTINCT s.name 

FROM (SELECT m 
FROM Movies m 
WHERE m.ownedBy.name = "Disney") d, 
d.stars s 


这 种 “查找 迪斯尼 电影 的 影星 ”的 方式 不 比例 9.3 简 洁 ， 甚 至 可 能 更 差 。 但 是 ， 它 说 明了 





276 BIE 


一 种 在 OQL 中 有 效 的 构造 查询 序列 的 新 方式 。 在 上 面 的 查询 中 ，FROM 子 句 中 有 两 个 络 套 循环 。 
在 第 一 个 循环 中 ， 变 量 d 遍 历 了 所 有 的 迪斯尼 电影 ， 子 查询 的 结果 放 在 FROM 子 句 中 。 在 艇 套 于 
第 一 个 循环 的 第 二 个 循环 中 ， 变 量 s 遍 历 了 迪斯尼 电影 变量 da 中 的 所 有 影星 。 注 意 ， 在 外 查询 
中 不 需要 WHRRE 子 句 。 口 


9.1.7 习题 
习题 9.1.1 图 9-2 是 一 个 用 ODL 描 述 产 品 的 例子 。 在 主 类 Product 下 分 别 设置 了 3 个 子 类 。 
读者 要 注意 ， 一 个 产品 的 类 型 既 可 以 从 type 属 性 获得 ， 也 可 以 从 它 所 属 的 子 类 获得 。 这 
并 不 是 一 个 很 好 的 设计 ， 因 为 其 中 可 能 出 现 这 样 的 情况 ， 如 一 个 PC 机 对 象 的 Lype 属 性 可 
能 与 “1aptop” 或 “printer” 相 同 。 然 而 ， 这 种 设计 可 以 使 你 了 解 如 何 表示 查询 。 
因为 Printer 的 类 型 是 从 其 父 类 Product 继 承 而 来 的 。 我 们 不 得 不 将 Printer 的 类 
型 属性 改名 为 printerType。 后 面 的 属性 是 打印 方式 ( 如 激光 和 喷 墨 打印 机 ) 而 
Product 的 类 型 的 值 将 是 PC 机 、 手 提 电 脑 或 打印 机 。 
在 图 9-2 的 ODL 代 码 中 加 入 方法 名 ( 参见 4.2.7 节 )， 完 成 下 列 事情 : 
* a) 把 产品 的 价格 减 掉 x。 假 设 + 是 函数 的 一 个 输入 参数 。 
b) 如 果 该 产品 是 PC 机 或 者 手提 电脑 ， 返 回 产品 的 速度 ， 否 则 返回 hotcomputer 异 常 。 
c) 根据 特定 的 输入 值 x* 设 置 手提 电脑 的 屏幕 大 小 。 
! d) 给 定 一 个 输入 产品 p， 判 断 产 品 g 其 速度 是 否 高 于 p 而 价格 低 于 p。 如 果 p 不 具有 速度 
属性 (如 ，p 不 是 PC 机 也 不 是 手提 电脑 )， 则 产生 一 个 badInput 异 常 ， 如 果 g 不 具 
有 速度 属性 ， 则 产生 一 个 hospeed 异 常 。 


class Product 

` (extent Products 
key model) 

{ 
attribute integer model; 
attribute string manufacturer; 
attribute string type; 
attribute real price; 


* 


class PC extends Product 
(extent PCs) 
{ 
attribute integer speed; 
attribute integer ram; 
attribute integer hd; 
attribute string rd; 


}; 


class Laptop extends Product 
(extent Laptops) 


attribute integer speed; 
attribute integer ram; 
attribute integer hd; 





图 9-2 ODL 描 述 的 product 模 式 
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attribute real screen; 


}; 


class Printer extends Product 
(extent Printers) 
{ 
attribute boolean color; 
attribute string printerType; 





}; 
图 9-2 ( BE) 


习题 9.1.2 使 用 习题 9.1.1 和 图 9-2 的 ODL 模 式 ， 写 出 以 下 的 OQL 查 询 : 
* a) 找 出 所 有 价格 低 于 $2000 的 PC 机 的 型 号 。 
b) 找 出 所 有 内 存 大 于 128 兆 的 PC 机 的 型 号 。 
c) 找 出 至 少 生产 两 种 激光 打印 机 的 厂家 。 
d) 找 出 偶 对 (7, 办 的 集合 。 其 中 7 表示 某 台 PC 机 或 手提 电脑 有 7 兆 内 存 ，h 表 示 这 台 PC 机 
或 手提 电脑 有 /A 吉 字 节 的 硬盘 。 
e) 根据 处 理 器 的 速度 ， 按 升序 生成 PC 机 ( 对 象 ， 不 是 型 号 ) 的 列表 。 
! 有 将 至 少 有 64 兆 内 存 的 手提 电脑 ， 按 屏幕 的 大 小 ， 降 序 生成 其 型 号 列表 。 
习题 9.1.3 ”图 9-3 是 一 个 战舰 数据 库 的 ODL 描 述 ， 试 向 其 中 加 入 以 下 的 方法 : 
a) 计算 一 稻 舰 的 火力 ， 即 火炮 的 门 数 乘 上 口径 的 立方 。 
b) 找 出 一 稻 舰 的 姐妹 舰 。 如 果 该 舰 是 类 中 惟一 的 舰 ， 产生 一 个 noSsisters 蜡 常 。 
c) 给 定 战役 bp 和 舰只 s 作 为 输入 参数 ， 假 设 舰只 s 参 加 了 战役 bp， 找 出 在 这 场 战役 中 沉没 
的 舰只 。 如 果 该 舰只 没有 参加 战役 2" ， 则 产生 一 个 aiaNotParticipate 异 常 。 
d) 给 定 舰 名 以 及 下 水 的 年 份 作为 参数 ， 将 该 舰 加 和 人 方法 作用 的 类 中 去 。 
class Class 


(extent Classes 
key name) 


* 


attribute string name; 

attribute string country; 

attribute integer numGuns; 

attribute integer bore; 

attribute integer displacement; 

relationship Set<Ship> ships inverse Ship: :class0f; 


}; 


class Ship 
(extent Ships 
key name) 


attribute string name; 
attribute integer launched; 
relationship Class classOf inverse Class::ships; 
relationship Set<Qutcome> inBattles 
inverse Outcome: :theShip; 
}; 
class Battle 





图 9-3 OPDL 描述 的 战舰 数据 库 
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(extent Battles 
key name) 


attribute name; 

attribute Date dateFought; 

relationship Set<Qutcome> results 
inverse Outcome: :theBattle; 


}; 


class Outcome 
(extent Outcomes) 

{ 
attribute enum Stat {ok,sunk,damaged} status; 
relationship Ship theShip inverse Ship: :inBattles; 
relationship Battle theBattle inverse Battle: :results; 





图 9-3 (4) 


习题 9.1.4 重复 习题 9.1.2， 要 求 在 每 个 查询 中 至 少 使 用 一 个 查询 子 句 。 
习题 9.1.5 ”使 用 习题 9.1.3 和 图 9%-3 中 的 ODL 模 式 ， 写 出 如 下 OQL 查询 操作 ， 
a) 找 出 至 少 有 九 门 炮 的 舰 的 类 名 。 
b) 找 出 至 少 有 九 门 炮 的 舰 ( 对 象 ， 不 是 舰 名 )。 
c) 找 出 排水 量 在 30 000 吨 以 下 的 舰 的 名 字 。 按 照 下 水 的 时 间 先 后 生成 列表 ， 如 果 有 相 
同 ， 再 按照 舰 名 的 字母 序 排序 。 
d) 找 出 姐妹 舰 (如 ， 同 一 类 的 舰 ) 的 对 象 配对 。 注 意 ， 配 对 中 是 舰 对 象 本 身 ， 而 不 是 
舰 的 名 字 。 
! o 找 出 至 少 有 两 个 国家 的 舰 在 战斗 中 沉没 的 所 有 战役 的 名 字 。 
L 人 f 找 出 没有 舰 受 创 的 所 有 战役 的 名 字 。 


9.2 OQL 表 达 式 的 其 他 格式 


在 这 一 节 中 ， 除 了 select-from-where 语 句 ， 我 们 将 看 到 OQL 所 提供 的 用 来 构造 表达 式 的 其 
他 一 些 操作 符 。 其 中 包括 : 逻辑 量词 ( 全称 量词 和 存在 量词 )、 聚 集 操作 符 、 分 组 操作 符 和 集 
合 操作 符 ( 并 集 ， 交 和 集 和 差 操 作 符 )。 
9.2.1 量词 表达 式 

我 们 可 以 测试 是 否 一 个 集 的 所 有 成 员 都 满足 某 一 条 件 ， 也 可 以 测试 是 否 至 少 存在 一 个 成 员 满 
足 茶 个 条 件 。 为 了 测试 集合 5 中 是 否 所 有 的 成 员 x 都 满足 某 一 条 件 C(x)， 可 以 用 以 下 OQL 表 达 式 : 

FOR ALL xIN S: C(x) 

若 每 个 在 8 中 的 x 都 满足 CCo) ， 则 说 明 表 达 式 的 结果 为 TRUE ， 否 则 为 FALSE。 类 似 地 ， 对 

于 表达 式 


EXISTS x IN S$: C(x) 


如 果 在 $ 中 至 少 有 一 个 x 使 得 C(x) 的 值 为 TRUE， 则 表达 式 的 值 为 TRUE; 否则 ， 表 达 式 的 值 
为 FALSE。 

例 9.7 ”图 9-4 给 出 了 查询 “ 找 出 迪斯尼 电影 中 的 所 有 影星 ”的 另 一 种 表达 方式 。 这 里 ， 我 
们 重点 放 在 影星 * 上 ， 查 询 他 们 是 否 是 某 部 迪斯尼 电影 中 的 影星 。 从 第 (3) 行 可 知 ， 我 们 要 考虑 
电影 集合 s . starredIn 中 所 有 电影 m， 该 集合 由 影星 主演 的 所 有 电影 构成 。 第 (4) 行 则 查询 电 


i eat RB Iga Ss 


的 EXTSTS 表 达 式 值 为 TRUE; 否则 为 FALSE。 


1) SELECT s 
2) FROM Stars s 
4) 








影 m 是 否 为 一 部 迪斯尼 电影 。 如 果 我 们 找到 这 样 的 电影 mw， 即 使 只 有 一 个 ， 第 (3) 行 及 第 (4) 行 中 
了 这 个 查询 。 
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3) WHERE EXISTS m IN s.starredIn 
m.ownedBy.name = "Disney" 
图 9-4 使 用 关于 存在 的 子 查询 


口 





SELECT s 






FROM Stars s 





例 9.8 ”让 我 们 用 全 称 操作 符 写 一 个 查询 ， 查 找 出 只 主演 过 迪斯尼 电影 的 所 有 影星 。 从 技 
9.2.2 聚集 表达 式 






WHERE FOR ALL m IN s.starredIn 


术 上 来 讲 ， 该 集合 包含 那些 没 主演 过 任何 一 部 电影 的 影星 〈 就 我 们 的 数据 库 而 言 )。 但 是 可 以 
在 查询 语句 中 加 入 新 的 条 件 ， 要 求 影星 至 少 主演 过 一 部 电影 ， 这 个 改进 留 作 习题 。 图 9-5 描 述 
m.ownedBy.name = "Disney" l 
图 9-5 使 用 含有 全 称 量词 的 子 查询 


0O 
0OQL 使 用 与 SQL 相同 的 5 个 聚集 操作 符 : AvG、coUNT、SUM、MIN 和 MAX。 但 是 在 SQL 中 ， 


As 而 MIN 和 MAX 则 可 以 作用 于 可 比较 类 型 ( 如 整 型 与 字符 串 ) 的 集合 。 
例 9.9 ”为 了 计算 所 有 电影 的 平均 长 度 ， 我 们 需要 建立 一 个 所 有 电影 长 度 的 包 。 注 意 ， 不 
AVG(SELECT m.length FROM Movies m) 


9.2.3 分 组 表达 式 


这 些 操 作 符 只 作用 于 一 个 表 的 指定 的 列 , 而 在 OQL 中 可 以 作用 于 所 有 包含 合适 类 型 成 员 的 集合 。 
使 用 AVG 操 作 符 得 到 希望 的 结果 。 


~ 


也 就 是 说 ，coUNT 可 以 作用 于 任何 的 集合 ; suM 和 avG 可 以 作用 于 算术 类 型 ( 如 整 型 ) 的 集 


是 生成 电影 长 度 的 集合 ， 因 为 如 果 是 那样 的 话 ， 相 同 长 度 的 电影 将 只 记 一 个 。 查 询 语句 为 : 
BA: 


1. 关键 字 GROUP BY. 


这 里 ， 我 们 使 用 一 个 子 查询 从 电影 中 来 抽取 长 度 成 员 。 其 结果 是 电影 长 度 的 一 个 包 ， 而 且 
BY 子 句 在 OQL 中 的 格式 为 : 
(b) — 


ABA 


TAS 
(c) 一 个 表达 式 


口 
SQL 中 的 GROUP BY 子 句 被 带 到 OQL 中 ,但 是 确切 地 说 ， 该 子 名 发 生 了 一 点 变化 。GROUP 
2. 一 个 用 肥 号 隔 开 的 、 含 有 一 个 或 多 个 划分 属性 partition attribute) 的 列表 。 每 一 个 属性 
(a) 一 个 域名 


也 就 是 说 ，GROUP BY 子 名 的 格式 为 ; 


GROUP BY fiie, frie, 


vey Sain 
每 一 个 GROUP BY 子 句 都 跟 在 一 个 select-from-where 查 询 之 后 ， 表 达 式 el，e>， 


en 可 以 





引用 FROM 子 句 中 的 变量 。 为 了 说 明 GROUP ”BY 是 如 何 工作 的 ， 让 我 们 看 看 在 FROM 子 句 中 只 有 


A 
O 
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， 一 个 变量 x 的 一 般 情况 。x 的 取 值 范围 在 某 一 个 集 C 中 ， 对 于 满足 WHERE 子 句 条 件 的 C 的 成 员 i， 


我 们 计算 所 有 的 表达 式 获 得 值 e1(i)，es(i)，...，ei(i)。 这 些 值 的 列表 也 就 是 值 ;所 属 的 组 。 

中 间 集 

由 GROUP BY 子 名 返回 的 值 实际 上 是 一 个 结构 的 集合 ， 我 们 称 之 为 中 间 集 (intermediate 
collection )。 其 中 的 每 个 成 员 有 以 下 的 格式 : 

Struct (fiivi, fave, .., fava, Partition:P) 

Hil REH TA. EME, (v1, v2, s vn FEL (ei), eli), ..., en) KI, 
使 得 集 C 中 至 少 有 一 个 ; 值 满足 wHERE 子 句 中 的 条 件 。 

最 后 一 个 域 有 一 个 特殊 的 名 字 partition。 直 观 上 ， 它 的 值 P 是 属于 这 个 组 的 ;的 值 。 更 
准确 的 说 法 是 ，P 是 一 个 包含 有 形 如 struct (x:i) 的 结构 的 包 ， 其 中 x* 是 FROM 子 句 中 的 变量 。 

输出 集 

含有 GROUP BY 子 句 的 select-from-where 表 达 式 中 的 SELECT 子 句 ， 可 以 只 引用 中 间 集 结构 
中 的 域 ， 即 hh， 及，.….，f 和 partition。 对 于 形成 partition 值 的 包 P 中 的 成 员 ， 我 们 可 以 
通过 partition 引 用 这 些 成 员 结构 中 的 域 -。 这 样 , 我 们 可 以 引用 出 现在 FROM 子 句 中 的 变量 x， 
但 是 我 们 只 能 在 对 包 P 的 成 员 进行 聚集 操作 时 才 可 以 这 样 做 。SELEcT 子 句 的 结果 将 作为 给 出 
集 (output collection ) 来 引用 。 

例 9.10 ”让 我 们 为 每 个 电影 公司 每 一 年 的 电影 的 总 长 度 创 建 一 个 表 。 在 OQL 中 ， 我 们 所 构 
造 的 实际 上 是 结构 的 一 个 包 ， 其 中 每 个 结构 有 3 个 成 分 : 电影 公司 、 年 份 和 该 电影 公司 在 该 年 
制作 的 电影 的 总 长 度 。 该 查询 如 图 9-6 所 示 : 


SELECT stdo, yr, sumLength: SUM(SELECT p.m.length 
FROM partition p) 





FROM Movies m 
GROUP BY stdo: m.ownedBy.name, yr: m.year 


图 9-6 用 电影 公司 和 年 份 对 电影 进行 分 组 


为 了 理解 这 个 查询 ， 我 们 从 FROM 子 句 开 始 讨论 。 在 该 子 名 中， 变量 站 遍历 了 所 有 的 
Movie 对 象 。 因 此 ， 在 我 们 的 讨论 中 ，m 是 扮演 x 的 角色 。 在 GROUP BY 子 句 中 ， 有 两 个 域 
stdoSyr, 分别 对 应 于 表达 式 m . ownedBy .name 和 m. year. 

fi, Pretty Woman 是 迪斯尼 公司 在 1990 拍 摄 的 一 部 电影 。 如 果 m 表 示 该 电影 对 象 ， 那 么 
m.ownedBy .name 的 值 是 “Di sney”， 而 m.year 的 值 是 1990。 结 果 ， 中 间 集 中 有 这 样 一 个 
成 员 ， 其 结构 为 : 





Struct (stdo:"Disney", yr:1990, partition:P) 
其 中 ，P 是 一 个 结构 的 集合 。 例 如 ， 它 包含 
Struct (m: mpw) 

其 中 ms 是 电影 Pretty Woman 的 Movie 对 象 。 仅 有 一 个 成 分 的 结构 也 在 P 中 ， 这 些 结构 的 域 
名 rm 表示 迪斯尼 公司 在 1990 年 出 品 的 其 他 电影 。 

现在 ,让 我 们 看 看 SELECT 子 句 。 我 们 为 中 间 集 中 的 每 个 结构 在 输出 集中 创建 一 个 结构 。 
每 个 输出 结构 的 第 一 个 成 分 是 stao。 也 就 是 说 ， 该 成 分 的 域名 是 st dao， 而 它 的 值 等 于 中 间 集 
相应 结构 的 stdo 域 的 值 。 类 似 地 ， 结 果 的 第 二 个 成 分 拥有 域名 yr 以 及 一 个 与 中 间 集 相应 结构 
的 yr 域 的 值 相等 的 值 。 

每 个 输出 结构 的 第 三 个 成 分 是 : 
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SUM(SELECT p.m.length FROM partition p) 

为 了 理解 这 个 select-from 表 达 式 ,我 们 首先 要 认识 到 ， 变 量 p 人 遍历 GROUP BY 结果 中 结构 
partition 域 上 的 成 员 。 每 个 p 的 值 都 是 struct (m:0) 形式 的 结构 ， 其 中 o 是 一 个 电影 对 象 。 
因此 ， 表 达 式 p.m 指向 这 个 对 象 o。 所 以 ，p.m. Length 是 指 该 电影 对 象 的 长 度 成 员 。 

所 以 ，select-from 查 询 子 句 生 成 特定 组 中 电影 的 长 度 的 包 。 例 如 ， 如 果 stdo 的 值 为 
“Disney”，yr 的 值 为 1990， 那 么 结果 就 是 迪斯尼 公司 在 1990 年 出 品 的 这 些 电 影 长度 的 包 。 当 
我 们 对 这 个 包 使 用 操作 符 SUM 时 ， 我 们 就 可 以 获得 组 中 的 电影 长 度 的 总 和 。 因 此 ， 输 出 集中 的 
一 个 成 员 可 能 为 ; 


Struct(stdo:"Disney", yr:1990, sumLength: 1234) 
其 中 1234 为 迪斯尼 公司 在 1990 年 出 品 的 所 有 电影 的 总 长 度 。 口 


当 FROM 子 名 有 多 个 集 时 的 分 组 

如 果 在 FROM 子 名 中 有 多 个 变量 ， 那 么 查询 的 解释 就 必须 有 一 些 相 应 的 变化 ， 但 是 总 的 原 
则 同上 述 一 个 变量 的 情况 是 一 样 的。 假设 FROM 子 句 中 出 现 的 变量 为 x1/，x,，...，xx， 那 么 : 

1. MAREE, X2, ..., x, ABATLAZEGROUP BY 子 句 中 的 表达 式 e1，e，,，...，e, 中 使 用 。 

2. 以 partition 域 为 值 的 包 ， 其 结构 中 有 以 下 这 些 域 : 1, xy，...，xio 

3. 假设 i ，i;,，...，i 分 别 是 变量 x/，x;，...，x 的 值 ， 并 且 使 WHERE 子 名 为 真 ， 那 么 在 中 间 
集中 有 如 下 形式 的 结构 : 

Struct (felini). felin sti) partition: P) 
Struct (xh, xathe, 2.0, Xr: te) 

9.2.4 HAVING AJ 

像 SQL 查 询 中 一 样 ，OQL 中 的 GROUP BY 子 句 后 面 可 以 跟着 HAVING 子 句 。 也 就 是 说 ， 以 
下 形式 的 子 句 

HAVING <condition> 


用 于 删除 GROUP BY 子 句 中 生成 的 某 些 组 。 其 中 的 条 件 将 作用 到 中 间 集 中 每 个 结构 的 
partition 域 的 值 。 如 果 为 真 ， 那么 就 对 该 结构 作 和 9.2.3 节 中 一 样 的 处 理 ， 生 成 输出 集中 的 
一 个 结构 。 若 为 假 ， 则 该 结构 不 放 到 输出 集中 。 

例 9.11 ”让 我 们 重 做 例 9.10， 查 询 电影 公司 制作 的 电影 的 总 长 度 和 制作 年 份 ， 但 是 要 求 这 
家 电影 公司 制作 过 片 长 至 少 为 120 分 钟 的 电影 。 图 9-7 所 示 的 查询 完成 这 项 工作 。 注 意 ， 在 
HAVING 子 句 中 ， 我 们 使 用 了 和 SELECT 子 句 相同 的 查询 语句 ， 以 获得 给 定 电影 公司 和 年 份 后 
得 到 的 电影 长 度 的 包 。 在 HAVING 子 句 中 ， 我 们 取 这 些 长 度 的 最 大 值 ， 并 与 120 进 行 比较 。 OF 


SELECT stdo, yr, sumLength: SUM(SELECT p.m.length 
FROM partition p) 





FROM Movies m 
GROUP BY stdo: m.ownedBy.name, yr: m.year 
HAVING MAK(SELECT p.m.length FROM partition p) > 120 


图 9-7 组 的 约束 





9.2.5 并 、 交 和 差 操作 
对 于 集合 或 包 类 型 的 两 个 对 象 ， 可 以 使 用 并 、 交 和 差 操 作 符 。 像 SQL 一 样 ， 这 三 个 操作 符 


B 
© 
Re 
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分 别 用 UNION、INTERSECT 和 EXCEPT 这 三 个 关键 字 来 表示 。 








(SELECT DISTINCT m 
2) FROM Movies m, nm.stars s 








3) WHERE s.name = "Harrison Ford") 
4) EXCEPT 
§) (SELECT DISTINCT m 






6) FROM Movies m 
WHERE m.ownedBy name = "Disney") 


图 9-8 使 用 集合 差 操作 的 查询 
例 9.12 ”如 图 9-8 所 示 ， 通 过 对 两 个 select-from-where 查 询 进行 差 操 作 ， 我 们 可 以 查找 出 由 
Harrison Ford 主 演 的 不 是 迪斯尼 公司 出 品 的 电影 的 集合 。 第 (1) 行 到 第 (3) 行 查找 Ford 主 演 的 电影 ， 
而 第 (5) 行 到 第 (7) 行 查找 由 迪斯尼 公司 出 品 的 电影 。 第 (4) 行 的 EXxcEPT 取 得 它们 的 差 集 。 口 


我 们 应 该 注意 图 9-8 中 第 (1) 行 与 第 (5) 行 中 的 关键 字 DISTINCT。 这 个 关键 字 使 得 两 个 查询 
的 结果 成 为 集合 类 型 ， 如 果 没 有 DISTINCT， 结 果 将 是 包 ( 多 重 集合 ) 类 型 。 在 OQL 中 ， 操 作 
符 UNION、INTERSECT 和 EXCEPT 作 用 于 集合 或 包 。 当 两 个 变量 均 为 集合 时 ， 这 些 操 作 符 有 
通常 集合 的 意义 。 

然而 ， 当 两 个 变量 都 是 包 类 型 ， 或 者 一 个 是 集合 、 一 个 是 包 时 ， 这 些 操作 符 则 有 包 的 含义 。 
回忆 S.3.2 节 ， 那 里 解释 了 包 的 并 、 交 和 差 操 作 的 定义 。 

从 图 9-8 中 的 查询 可 知 ， 某 部 电影 出 现在 子 查询 结果 中 的 次 数 是 0 或 1， 所 以 无 论 有 没有 
DISTINCT， 结 果 都 是 一 样 的 。 然 而 ， 结 果 的 类 型 却 不 一 样 。 如 果 使 用 了 DISsTINCcCT， 那 么 结 
果 类 型 是 Set<Movie>; 如 果 DISTINCT 在 一 个 地 方 不 用 或 两 个 地 方 都 不 用 时 ， 结 果 类 型 则 是 
Bag<Movie>o 
9.26 习题 

习题 9.2.1 使 用 习题 9.1.1 和 图 9-2 中 的 ODL 模 式 ， 用 ODLi 语 言 写 出 以 下 的 查询 序列 : 

a) 查找 同时 生产 PC 机 和 打印 机 的 厂家 。 

b) 查找 硬盘 至 少 有 20G 的 PC 机 生产 厂家 。 

c) 查找 只 生产 PC 机 而 不 生产 手提 电脑 的 厂家 。 

* d) 查找 PC 机 的 平均 速度 。 

* e) 分 别 根据 每 种 CD 或 DVD 的 速度 ， 查 找 出 PC 机 的 平均 内 存 的 大 小 。 

f) 查找 产品 至 少 有 64MB 内 存 并 且 价 格 低 于 $1000 的 厂家 。 

! g) 对 所 制造 的 PC 的 平均 速度 至 少 为 1200 的 每 个 厂家 ， 查 找 他 们 在 PC 机 中 配置 的 最 大 

内 存 。 

习题 9.2.2 使 用 习题 9.1.3 和 图 9-3 中 的 ODL 模 式 ， 用 ODL 语 言 写 出 以 下 的 查询 序列 : 
a) 查 出 所 有 在 1919 年 之 前 下 水 的 舰只 的 类 别 。 
b) 找 出 每 种 类 别 舰只 的 最 大 排水 量 。 

! oc) 对 于 每 一 门 大 炮 ， 查 出 配 有 此 炮 的 舰 的 最 早 下 水 年 份 。 

!! 由 根据 所 有 在 1919 年 之 前 下 水 的 战舰 的 类 别 ， 查 出 此 类 别 中 的 战舰 在 战役 中 沉没 的 数目 。 

! 6) 查 出 各 类 舰 中 拥有 船只 的 平均 数 。 

! 人 f 查 出 船只 的 平均 排水 量 。 

!! g) 查找 出 那些 至 少 有 一 艘 来自 美国 的 舰只 参战 ， 且 至 少 有 两 艘 舰 沉没 的 战役 。 

! 习题 9.2.3 我 们 在 例 9.8 中 讲 过 ， 图 9-5 的 OQL 查 询 将 返回 那些 没有 主演 过 一 场 电影 的 影星 ， 
因此 从 技术 上 描述 为 :“ 只 会 出 现在 迪斯尼 电影 中 ”。 和 董 写 该 查询 ， 查 找 出 至 少 主演 过 一 部 






* 
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电影 的 影星 ， 而 且 这 些 影星 只 主演 过 迪斯尼 电影 。 
! 习题 9.2.4 如 果 EXISTS xIN S: 
可 能 为 真 ?” 给 出 你 的 理由 。 


9.3 OQL 中 对 象 的 赋值 与 创建 
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C(x) 是 假 ， 那 么 FOR ALL xIN S 
言 可 能 是 另外 的 面向 对 象 的 通用 编程 语言 ( 如 Java )。 
9.3.1 宿主 语言 


变量 的 赋值 


与 SQL 在 元 组 分 量 和 宿主 语言 变量 之 间 传 送 数据 的 方式 不 同 ，OQL 很 自然 地 嵌入 到 其 宿主 
语言 中 。 更 确切 地 说 ， 我 们 所 学 过 的 一 些 OQL 的 表达 式 ， 如 select-from-where， 是 生成 对 象 作 
为 值 的 。 这 样 就 可 以 把 OQL 表 达 式 的 结果 作为 值 ， 赋 给 具有 合适 类 型 的 宿主 语 

例 9.13 下 面 的 OQL 表 达 式 

SELECT DISTINCT m 


C (x) 有 没有 
这 一 节 将 讨论 0QL 如 何 与 宿主 语言 连接 。 我 们 将 以 C++ 为 例子 ， 虽 然 在 某 些 系统 中 宿主 语 


FROM Movies m 


WHERE m.year < 1920 


言 变量 。 
生成 所 有 在 1920 年 之 前 出 品 的 电影 的 集合 ， 它 的 类 型 是 set -Movie>。 如 果 oldMovies 
是 相同 类 型 的 宿主 语言 变量 ,那么 可 以 (使 用 经 过 OQL 扩 展 的 C++ 语言 ) 写 出 如 下 查询 : 
oldMovies = SELECT DISTINCT m 

FROM Movies m 
WHERE m.year < 1920; 


这 样 olaMovies 的 值 将 成 为 Movie 对 象 的 集合 。 
9.3.2 集合 元 素 的 提取 


由 于 select-from-where 与 group-by 表 达 式 都 生成 集 (集合 、 包 或 列表 )， 因 此 ， 如 果 我 们 需 
要 该 集 内 的 某 个 元 素 ， 就 得 做 一 些 额 外 的 工作 。 即 使 我 们 肯定 某 个 集 仅 有 一 个 元 素 ， 这 个 说 法 
查询 返回 一 个 单元 素 的 结果 ， 就 可 以 用 这 个 操作 符 。 
例 9.14 ”假设 我 们 


O 
也 是 成 立 的 。OQL 提 供 操作 符 ELEMENT， 把 一 个 单元 素 集 转化 成 单独 成 员 。 例 如 ， 知 道 某 个 


想 给 类 型 为 Movie ( 即 是 Movie 类 ) 的 变量 gwtw 赋 值 为 电影 对 象 ， 表 
示 电 影 Gone With the Wind。 以 下 查询 的 结果 是 一 个 仅 包含 一 个 对 象 的 包 : 
SELECT m : 
FROM Movies m 
WHERE m.title = "Gone With the Wind" 
用 ELEMENT 操 作 符 : 


gwtw = ELEMENT(SELECT m 


我 们 不 能 直接 将 这 个 包 赋 给 变量 gwtw， 否 则 将 会 出 现 一 个 类 型 错误 。 但 是 如 果 我 们 先 使 
FROM Movies m 
) ; 


WHERE m.title = "Gone With the Wind" 
则 变量 的 类 型 就 和 表达 式 匹配 了 ， 赋 值 就 是 合法 的 。 
9.3.3 获取 集合 的 每 一 个 成 员 





获取 集合 或 包 中 的 每 个 成 员 更 加 复 


杂 


口 
， 但 是 仍然 比 SQL 中 基于 游标 的 算法 简单 。 首 先 ， 需 
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要 使 用 含有 ORDER BY 子 句 的 select-from-where 表 达 式 将 集合 或 包 转 化 为 列表 。 回 顾 一 下 9.1.4 
节 可 知 ， 这 种 表达 式 的 结果 就 是 选 出 的 对 象 或 值 的 列表 。 

例 9.15 ”假设 我 们 想 要 获得 Movie 类 中 的 所 有 电影 对 象 的 列表 ， 我 们 可 以 利用 电影 的 名 字 
以 及 年 份 (为 了 排除 相同 的 情况 )， 因 为 (title， year) 是 Movie 的 键 。 以 下 的 语句 把 按照 
影片 名 和 年 份 排 好 序 的 所 有 电影 对 象 的 列表 ， 赋 值 给 宿主 语言 变量 movieList。 口 


movieList = SELECT m 
FROM Movies m 
ORDER BY m.title, m.year; 


一 旦 我 们 有 了 一 个 排 好 序 或 没有 排 好 序 的 列表 ， 就 可 以 通过 序号 访问 每 个 元 素 : Lpi-1 
取 列 表 L 的 第 i 个 元 素 。 注 意 ， 列 表 和 数组 的 序号 都 假定 是 从 0 开始 的 ， 类 似 C 或 C++。 

例 9.16 ”假设 我 们 想 写 一 个 C++ 函 数 ， 打 印 出 每 部 电影 的 名 字 、 年 份 和 长 度 。 该 函数 的 简 
单 框架 如 图 9-9 所 示 。 





1) movieList = SELECT m 

FROM Movies m 

ORDER BY m.title, m.year; 
2) number0fMovies = COUNT(Movies) ; 
3) for(i=0; i<number0fMovies; i++) { 


4) movie = movieList[i]; 
5) cout << movie.title << " " << movie.year << " " 
6) << movie.length << "\n"; 





图 9-9 查看 并 打印 每 部 电影 


第 (1) 行 对 Movie 类 进行 排序 ， 将 结果 放 进 类 型 为 List<Movie> 的 变量 movieList 中 。 
第 C2) 行 使 用 OQL 的 操作 符 COUNT 计 算 电 影 的 数目 。 第 (3) 行 到 第 (6) 行 是 一 个 for 循环 ， 在 这 个 循 
环 中 ， 变 量 i 遍 历 这 个 列表 的 每 个 位 置 。 为 了 方便 起 见 ， 列 表 的 第 个 元 素 赋 给 了 变量 movi e。 
这 样 ， 在 第 (5) 和 第 (6) 行 中 ，movie 相 应 的 属性 就 被 打印 出 来 。 口 


9.3.4 OQL 中 的 常量 

OQL 中 的 常量 (有 时 作为 不 变 对 象 来 引用 ) 是 通过 一 个 基 和 递归 构造 函数 来 构造 的 ， 这 样 
的 方式 与 ODL 类 型 的 构造 方式 类 似 。 

1. 基本 值 (basic value )， 可 以 是 下 面 任 一 个 ; 

(a) RPA (atomic value); 整数 、 浮 点 数 、 字 符 、 字 符 串 和 布尔 值 。 这 些 都 已 经 在 SQL 中 
预定 义 过 了 ， 除 非 用 双 引 号 括 起 来 作为 字符 串 。 

(b) #4848 (enumeration )。 在 一 个 枚 举 中 的 值 实际 上 是 在 ODL 中 声明 。 任 何 一 个 这 样 的 值 
都 可 以 用 作 常 量 。 

2. 复合 值 (complex value )， 通 过 以 下 的 类 型 构造 函数 来 构造 : 

(a) Set(...) 

(b) Bag(...) 

(c) List(...) 

(d) Array(...)} 

(e) Struct(...) 


前 四 种 称 为 集 类 型 〈collection type )。 集 类 型 和 struct 类 型 可 以 随意 作用 到 相应 类 型 
《基本 类 型 或 复合 类 型 ) 的 任何 值 上 。 但 是 ， 在 应 用 Struct 操 作 符 的 时 候 ， 需 要 具体 给 出 域 
的 名 字 和 相应 的 值 。 每 个 域 的 名 字 后 面 紧 跟 一 个 冒号 和 域 的 值 ， 而 各 个 域 - 值 对 之 间 用 逗号 隔 
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419.17 
而 表达 式 





Struct (foo: bag(2,1,2), bar: "baz") 


开 。 注 意 同 样 的 类 型 构造 函数 也 在 ODL 中 使 用 ， 但 是 在 这 里 ， 我 们 用 圆 括号 而 不 用 尖 括 号 。 
9.3.5 创建 新 对 象 
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表达 式 bag (2, 1, 2) 表示 一 个 包 ， 在 这 个 包 中 整数 2 出 现 两 次 ， 整 数 1 出 现 一 次 。 


表示 一 个 有 两 个 域 的 结构 。 域 foo 的 值 是 前 面 描述 的 包 ， 而 域 bar 的 值 是 字符 串 “baz"。 
其 中 的 一 行 


口 
我 们 已 经 看 到 ，OQL 表 达 式 如 select-from-where， 人 允许 我 们 创建 新 对 象 。 通 过 把 常量 或 者 
SELECT DISTINCT Struct(star1: s1, star2: s2) 


别 的 表达 式 显 式 地 组 合成 结构 和 集合 ， 也 可 以 创建 对 象 。 我 们 从 例 9.5 中 已 看 到 过 这 种 惯例 ， 


用 来 说 明 查 询 的 结果 是 一 些 对 象 的 集合 ， 而 这 些 对 象 的 类 型 是 struct{starl: Star, 
star2: Star}。 我 们 给 出 域 的 名 字 starl 和 star2 来 说 明 这 个 结构 ， 而 这 些 域 的 类 型 可 以 由 
变量 sl1 和 s2 的 类 型 推导 出 来 。 

例 9.18 ”正如 在 9.3.4 节 中 看 到 ， 常 量 的 构造 可 以 赋值 到 变量 中 去 ， 这 种 方式 类 似 于 其 他 的 
编程 语言 。 例 如 ， 考 虑 下 面 的 赋值 语句 序列 ; 

x = Struct(a:1, b:2); 

y = Bag(x, x, Struct(a:3, b:4)); 

第 一 行 赋 给 变量 x 一 个 值 ， 其 类 型 是 ; 


Struct (a:integer, b:integer) 


出 现 了 一 次 。 


这 个 结构 有 两 个 整数 值 的 域 ， 名 字 分 别 为 a 和 b。 我 们 可 以 把 这 种 类 型 的 值 表示 成 偶 对 ， 仅 以 
整数 作为 成 员 ， 而 不 是 域名 a 和 b。 因 此 ，x 的 值 可 以 表示 成 偶 对 (1，2 )。 第 二 行 把 y 定 义 成 一 
个 包 , 该 包 的 成 员 是 与 + 有 相同 类 型 的 结构 。 偶 对 ( 1，2 ) 在 这 个 包 中 出 现 了 两 次 ,而 (3, 4) 


类 或 其 他 的 类 型 可 以 通过 构造 函数 constructor function) 创建 自己 的 实例 。 一 般 情 况 下 ， 
类 有 许多 不 同形 式 的 构造 函数 ， 选 择 哪 种 构造 函数 则 取决 于 哪些 属性 被 显 性 地 初始 化 ， 以 及 哪 
例 9.19 


些 属性 是 用 默认 值 。 例 如 ， 方 法 不 会 被 初始 化 ， 大 部 分 的 属性 将 得 到 初始 值 ， 而 联系 可 能 被 初 
用 到 的 域名 来 区 分 。 这 些 构造 函数 定义 的 细节 取决 于 宿主 语言 。 


口 
始 化 为 一 个 空 的 集合 ， 待 以 后 再 扩充 。 每 个 构造 函数 的 名 字 都 是 该 类 的 名 字 ， 依 靠 参数 表 中 所 


让 我 们 考虑 Movie 对 象 的 一 个 可 能 的 构造 函数 。 假 设 ， 这 个 函数 的 输入 是 属性 
方式 创建 一 个 Gone With the Wind 电 影 对 象 : 
length: 239, 


title、year、length 和 ownedBy 的 值 ， 输出 是 一 个 对 象 ， 该 对 象 的 域 的 值 是 输入 值 ， 还 
有 一 个 影星 的 空 集合 。 这 样 ， 如 果 变 量 mgm 的 值 是 MGM Studio 对象， 那么 我 们 可 以 用 下 面 的 
gwtw = Movie(title: "Gone With the Wind", 
year: 1939, 


ownedBy: mgm); 
这 条 语句 将 产生 两 个 影响 : 


1. 它 创建 了 一 个 新 的 Movie 对 象 ， 成 为 Movies 扩 展 的 一 部 分 。 


B 
© 
w} 
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2. 它 使 这 个 对 象 成 为 宿主 语言 的 变量 gwtw 的 值 。 


9.3.6 习题 
习题 9.3.1 把 下 面 的 常量 赋 给 一 个 宿主 语言 变量 x: 
* a) Ati, 2, 3}. 
b) f4{1, 2, 3, Io 
c) #(1, 2, 3, Do 
d 有 两 个 成 分 的 结构 。 第 一 个 成 分 是 名 为 a 的 集合 {1，2}， 第 二 个 成 分 是 名 为 b 的 包 
{i, 1}. 
e) 一 个 含有 结构 的 包 ， 每 个 结构 都 有 两 个 名 字 分 别 为 a 和 Pb 的 域 。 这 个 包含 有 三 个 结 
构 ， 其 值 分 别 为 (1，2)，(2，1) 和 (1，2)。 
习题 9.3.2 ”运用 习题 9.1.1 和 图 9-2 的 ODL 模 式 ， 写 一 段 用 OQL 扩 展 的 C++ (或 你 选择 的 一 
种 面向 对 象 的 宿主 语言 ) 程序 ， 完 成 以 下 事情 : 
* a) 把 型 号 1000 的 PC 机 对 象 赋 给 宿主 语言 变量 x。 
b) 把 至 少 有 64 兆 内 存 的 手提 电脑 对 象 的 集合 赋 给 宿主 语言 变量 y。 
©) 把 售 价 低 于 1500 美 元 的 PC 的 平均 速度 赋 给 宿主 语言 变量 z。 
d) 找 出 所 有 的 激光 打印 机 ， 输 出 它们 型 号 和 价格 的 列表 ， 接 着 是 一 条 说 明 型 号 和 最 低 
价格 的 消息 。 
L @) 输出 一 个 表格 ,显示 每 个 PC 机 厂商 的 产品 的 最 低 和 最 高 价格 。 
习题 9.3.3 ”在 这 个 习题 中 ， 我 们 将 使 用 习题 9.1.3 和 图 9-3 的 ODL 模 式 。 假 设 该 模式 下 的 四 个 
类 都 有 一 个 与 该 类 同名 的 构造 函数 。 这 些 构造 函数 为 每 个 属性 和 单 值 联系 取 值 ， 而 对 于 多 值 
联系 则 初始 化 为 空 值 。 对 关联 到 其 他 类 的 单 值 联 系 ， 你 可 以 假定 一 个 宿主 语言 变量 ， 变 量 的 
当前 值 就 是 相关 的 对 象 。 创 建 下 列 对 象 ， 并 把 对 象 作 为 值 赋 给 一 个 宿主 语言 变量 。 
* a) Maryland 级 战舰 Colorado 号 ， 在 1923 年 下 水 。 
b) Liitzow 级 战舰 Graf Spee 号 ， 在 1936 年 下 水 。 
c) Malaya 战 争 的 一 个 后 果 是 导致 了 战舰 Prince of Wales 号 的 沉没 。 
d) Malaya 战 争 在 1941 年 12 月 10 号 爆发 。 
e) Hood 级 的 英国 巡洋舰 有 8 门 15 英 十 大炮 ， 排 水 量 达 41 000 吨 。 


9.4 SQL 中 的 用 户 定义 类 型 


现在 我 们 回头 看 看 SQL-99 是 怎么 把 面向 对 象 的 多 个 特点 结合 到 一 起 的 。 在 ODL 和 0OQL 中 已 经 
讲述 了 这 些 特 点 。 正 因为 这 些 对 SQL 的 新 扩展 ， 一 个 符合 这 些 标准 的 DBMS 常 常 被 认为 是 “对 象 关 
系 的 "。 在 45 节 中 ， 我 们 过 到 过 很 多 抽象 的 对 象 关 系 概念 。 现 在 是 研究 这 个 标准 的 细节 的 时 候 了 。 

在 OQL 中 没有 具体 的 关系 表示 方法 ， 只 有 一 个 结构 的 集合 ( 或 包 )。 然 而 ， 关 系 对 SQL 来 
说 是 居中 心地 位 的 ， 所 以 SQL 中 的 对 象 仍 以 关系 作为 核心 概念 。 在 SQL 中 ，ODL 的 类 都 变 为 用 
户 定义 类 型 (user-defined type， 或 UDT )。 我 们 发 现 UDT 类 型 用 在 两 种 截然 不 同 的 方面 : 

1. 一 个 UDT 类 型 可 以 是 一 个 表格 的 类 型 。 

2. 一 个 UDT 类 型 可 以 是 某 个 表格 中 的 某 个 属性 的 类 型 。 

9.4.1 在 SQL 中 定义 类 型 
可 以 粗略 地 认为 ，SQL 中 用 户 定 义 类 型 的 声明 同 ODL 中 类 的 声明 是 很 相似 的 ， 但 有 一 些 差 
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别 。 首 先 ， 用 来 声明 用 户 定义 类 型 的 关系 的 键 是 表格 定义 的 一 部 分 ， 而 不 是 类 型 定义 的 一 部 
分 ; 也 就 是 说 ， 很 多 SQL 的 关系 可 以 被 声明 为 相同 的 (用 户 定义 ) 类 型 ， 但 有 不 同 的 键 和 其 他 
限制 。 其 次 ,在 SQL 中 ， 我 们 不 把 联系 看 做 是 属性 。 一 个 联系 必须 被 表示 成 一 个 独立 的 关系 ， 
正如 在 4.4.5 节 中 讨论 的 那样 。UDT 定 义 的 一 个 简单 的 形式 如 下 ， 

1. 关键 字 CREATE TYPE， 

2. 类 型 的 名 字 ， 

3. 关键 字 AS。 

4. 用 小 插 号 括 起 来 、 逗 号 隔 开 的 属性 及 其 类 型 的 列表 。 

5. 用 逗号 隔 开 的 方法 的 列表 ， 这 些 方法 包括 参数 类 型 和 返回 类 型 。 

这 样 ， 类 型 7 的 定义 形式 为 : 

CREATE TYPE T AS <attribute and method declarations>; 

例 9.20 我们 可 以 创建 一 个 与 图 9-1 中 OQL 例 子 的 Star 类 相似 的 电影 明星 的 类 型 。 然 而 ， 
我 们 不 能 直接 在 Star 元 组 中 把 电影 的 集合 表示 成 一 个 域 。 因 此 ， 我 们 将 从 star 元 组 的 分 量 
name 和 address 开 始 讨论 。 

首先 要 注意 ,在 图 9-1 中 的 address 类 型 本 身 就 是 一 个 元 组 ， 含 有 分 量 street 和 city。 因 此 ， 
我 们 需要 两 个 类 型 定义 ， 一 个 用 来 定义 地 址 ， 另 一 个 定义 影星 。 所 需 的 定义 如 图 9-10 所 示 。 


CREATE TYPE AddressType AS ( 
street CHAR(50), 
city CHAR(20) 







) ; 


CREATE TYPE StarType AS ( 
name CHAR(30), 
address AddressType 






) ; 





图 9-10 两 个 类 型 定义 


AddressType 类 型 的 元 组 有 两 个 分 量 ， 其 属性 是 street 和 city。 这 两 个 分 量 的 类 型 是 
长 度 分 别 为 90 和 20 的 字符 串 。StarType 类 型 的 元 组 同样 有 两 个 分 量 。 第 一 个 的 属性 是 name， 
其 类 型 为 30 个 字符 的 字符 串 ; 第 二 个 分 量 的 属性 是 adaaress ， 它 本 身 的 类 型 就 是 一 个 
AddressType 的 UDT 类 型 ， 也 就 是 一 个 含有 street 和 city 成 员 的 元 组 。 口 


9.4.2 用 户 定 义 类 型 中 的 方法 

方法 的 声明 同 8.2.1 节 中 介绍 的 PSM 中 的 函数 类 似 ， 但 方法 没有 与 PSM 过 程 类 似 的 东西 。 也 
就 是 说 ， 每 个 方法 都 返回 某 种 类 型 的 一 个 值 。 在 PSM 中 函数 的 声明 和 定义 是 组 合 在 一 起 的 ， 而 
一 个 方法 既 需 要 一 个 满足 自己 类 型 定义 的 声明 ， 又 需要 有 一 个 用 CREATE METHOD 语 句 说 明 的 
单独 的 定义 。 

方法 的 声明 类 似 于 PSM 的 函数 声明 ， 只 要 用 关键 字 METHOD 代 替 关 键 字 CREATE 
FUNCTION 即 可 。 但 是 通常 SQL 方法 都 没有 参数 ， 方 法 都 作用 在 表 的 行 上 面 ， 就 像 ODL 的 方法 
作用 在 对 象 上 一 样 。 在 方法 的 定义 中 ， 如 果 需 要 ，sELF 可 表示 该 元 组 本 身 。 

例 9.21 假设 我 们 在 图 9-10 中 类 型 AddressType 的 定义 中 增加 一 个 方法 houseNumber， 
这 个 方法 在 住址 的 street 分 量 中 取得 一 部 分 数据 。 例 如 ，street 分 量 是 “123 Maple 
St.”, 那么 , 方法 houseNumber 将 返回 “123”。 经 过 修改 的 类 型 定义 为 : 


A 
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CREATE TYPE AddressType AS ( 
street CHAR(50), 
city CHAR(20) 
) 
METHOD houseNumber() RETURNS CHAR(10) ; 


我 们 可 以 看 到 在 关键 字 METHOD 后 面 ， 紧 跟着 方法 的 名 字 和 一 个 用 括号 把 参数 和 参数 类 型 
括 起 来 的 列表 。 在 这 个 例子 中 ， 方 法 没有 参数 ， 但 是 括号 仍然 是 必需 的 。 如 果 方 法 有 参数 ， 那 
么 这 些 参数 会 出 现在 列表 中 ， 后 面 紧 跟 参 数 的 类 型 。 例 如 ，(a INT, b CHAR(5))o 口 

在 个 别 的 情况 下 ， 我 们 需要 定义 方法 ， 方 法 定义 的 一 个 简单 形式 包括 : 

1. 关键 字 CREATE METHOD, 

2. 方法 名 、 参 数 和 参数 类 型 以 及 返回 语句 ， 就 像 方 法 的 声明 一 样 。 

3. 关键 字 FOR 和 方法 声明 所 处 的 UDT 的 名 字 。 

4. 方法 体 ， 使 用 与 PSM 函 数 体 相同 的 语言 来 书写 。 

例如 ， 我 们 可 以 如 下 定义 例 9.21 中 的 方法 houseNumber: 


CREATE METHOD houseNumber() RETURNS CHAR(10) 
FOR AddressType 
BEGIN 


END; 


我 们 省 略 了 方法 体 ， 因 为 从 字符 串 addaress 中 分 离 出 想 要 的 子 串 并 不 是 一 件 困 难 的 事 ， 
即便 在 PSM 中 也 是 如 此 。 
9.4.3 用 UDT 声 明 关 系 

在 声明 了 一 个 类 型 之 后 ， 我 们 就 可 以 声明 一 个 或 多 个 关系 ， 这 些 关 系 中 元 组 的 类 型 就 是 刚 
声明 过 的 那个 类 型 。 关 系 声明 的 形式 类 似 于 6.6.2 节 中 所 讲 的 那样 ， 但 是 我 们 用 


OF <type name> 


来 代替 普通 SQL 表 声 明 中 的 属性 声明 列表 。 表 声 明 中 的 其 他 元 素 ， 如 键 、 外 键 和 基于 元 组 的 语 
义 限 制 ， 如 果 需 要 都 可 以 加 进 表 的 声明 中 ， 而 且 只 作用 到 这 张 表 上 ， 不 作用 到 UDT 本 身 。 

例 9.22 ”我 们 可 以 通过 下 面 的 方式 来 声明 MovieSstar 是 一 个 元 组 类 型 为 s tarType 的 关 
系 : 


CREATE TABLE MovieStar OF StarType; 


这 样 就 使 得 表 Moviestar 拥 有 两 个 属性 : name 和 address。 第 一 个 属性 name 是 一 个 普 
通 字符 串 ， 而 第 二 个 属性 addaress 的 类 型 本 身 就 是 一 个 UDT， 即 AddressType 类 型 。 口 

通常 ， 我 们 会 为 每 个 类 型 声明 一 个 关系 ， 认 为 这 个 关系 是 对 应 于 该 类 型 的 类 扩展 ( 参见 
4.3.4 节 中 的 含义 )。 但 是 ， 对 一 个 给 定 类 型 ， 声 明 多 个 关系 或 是 不 声明 关系 都 是 允许 的 。 
9.4.4 引用 

对 于 面向 对 象 语言 中 的 对 象 标 识 ，SQL 是 通过 引用 (reference) 来 实现 的 。 类 型 为 UDT 的 
表 可 以 用 一 个 引用 列 (reference column ) 作为 它 的 标识 符 。 例 如 ， 如 果 这 个 表 有 主键 ， 引 用 列 
可 以 作为 该 表 的 主键 ,或 者 ， 引 用 列 的 值 由 DBMS 单 独 生 成 和 维护 。 我 们 将 先 了 解 怎 样 使 用 引 
用 类 型 ， 之 后 再 讲 定义 引用 列 的 事情 。 

为 了 引用 含有 引用 列 的 表 中 的 元 组 ， 必 须 有 一 个 可 以 引用 其 他 类 型 的 属 人 性。 如果 7 是 一 个 


UDT, 那么 REF(7T) 的 类 型 就 是 对 类 型 7 的 元 组 的 引用 。 此 外 ， 可 以 为 引用 加 上 一 个 作用 域 
(scope )， 该 作用 域 就 是 被 引用 元 组 所 在 的 关系 的 名 字 。 因 此 ， 如 果 属 性 4 的 值 是 对 关系 R 中 元 
组 的 引用 ， 而 R 是 一 个 UDPT 类 型 7 的 表 ， 那 么 4 可 以 声明 为 ， 


A REF(T) SCOPE R 


如 果 没 有 说 明 作用 域 ， 那 么 该 引用 就 可 以 作用 于 类 型 7 的 任何 一 个 关系 。 

例 9.23 ”在 Moviestar 对 象 中 ， 引 用 属性 不 足以 记录 影星 主演 的 所 有 电影 。 但 是 ， 引 用 
属性 可 以 记录 下 每 位 影星 主演 的 最 佳 电影 。 假 设 我 们 声明 了 一 个 关系 Movie， 关 系 的 类 型 是 
UDT 类 型 MovieType。 我 们 将 在 图 9-11 中 定义 MovieType 和 Movie。 下 面 是 StarType 一 个 
新 的 定义 ， 它 包含 了 一 个 用 来 引用 电影 的 属性 bestMovie。 

CREATE TYPE StarType AS ( 

name CHAR(30) , 
address AddressType, 
bestMovie REF(MovieType) SCOPE Movie 

); 

此 时 ， 如 果 关 系 Moviestar 定 义 为 包含 上 面 内 容 的 UDT， 那 么 每 个 影星 元 组 都 会 有 一 个 
分 量 来 引用 一 个 Movie 元 组 一 该 影星 的 最 佳 电影 。 o 


接 下 来 ,我 们 将 调整 类 似 例 9.23 的 表 ， 加 进 一 个 引用 列 。 这 样 的 表 称 为 可 引用 
( referenceable ) 的 。 在 一 个 表 的 类 型 为 UDT 类 型 的 CREATE TABLE 语 名 中 ( 见 9.4.3 节 )， 可 以 
添加 如 下 形式 的 子 句 : 


REF IS <attribute name> <how generated> 


“attribute name” 是 赋 给 的 列 名 ， 用 作 元 组 的 “对 象 标 识 符 ”。 而 “how generated” 子 句 可 
以 是 下 面 任何 一 种 常见 形式 : 

1. SYSTEM GENERATED， 这 表示 DBMS 负 责 维护 每 个 元 组 在 该 列 有 惟一 的 值 。 

2. DERIVED ， 这 表示 PDBMS 将 使 用 关系 的 主键 为 该 列 产生 惟一 的 值 。 

例 9.24 ”图 9-11 说 明了 怎样 声明 UDT 类 型 MovieType 和 关系 Movie， 以 使 得 Movie 是 可 
以 被 引用 的 。 第 (1) 到 (4) 行 是 对 这 个 UDT 的 声明 ， 第 (5) 到 (7) 行 把 关系 Movie 定 义 为 这 种 UDT 类 
型 。 注 意 ， 我 们 在 第 (7) 行 声明 了 title 和 year， 两 者 一 起 作为 关系 Movie 的 键 。 

在 第 (6) 行 当中 我 们 可 以 看 到 ，Movie“ 标 识 ” 列 的 名 字 是 movieID。 这 个 属性 将 自动 成 
为 citle、year 以 及 inColor 之 后 的 Movie 的 第 四 个 属性 。 和 其 他 任何 属性 一 样 ， 该 属性 也 
可 以 用 在 查询 中 。 

1) CREATE TYPE MovieType AS ( 
2) title CHAR(30), 
year INTEGER, 


4) inColor BOOLEAN, 
); 


CREATE TABLE Movie OF MovieType C 
REF IS movieID SYSTEM GENERATED, 
PRIMARY KEY (title, year) 





) ; 
图 9-11 创建 可 被 引用 的 表 
第 (6) 行 还 说 明 ， 每 当 一 个 新 的 元 组 插入 到 Movie 的 时 候 ， DBMS 都 负责 为 其 生成 一 个 
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movie-IDM fH. WRIA “DERIVED” (RÆ “SYSTEM GENERATED”， 那 么 在 产生 新 的 


元 组 时 ， 系 统 将 由 该 元 组 的 主键 属性 tit1le 和 year 的 值 计算 出 一 个 新 值 ， 作 为 新 元 组 
movieID 的 值 。 D 


$19.25 现在， 让 我 们 看 看 怎样 使 用 引用 来 表示 电影 和 影星 之 间 的 多 对 多 联系 。 先 前 ,我 
们 用 关系 来 表示 这 种 联系 ， 例 如 用 关系 StarsIn， 它 包含 以 Movie 和 MovieStar 作 为 键 的 元 
组 。 作 为 一 种 选择 ， 我 们 重新 定义 StarsIn， 使 它 可 以 引用 这 两 个 关系 中 的 元 组 。 
首先 ， 我 们 需要 重新 定义 MovieStar， 使 它 成 为 一 个 可 引用 的 表 : 
CREATE TABLE MovieStar OF StarType ( 
REF 15 starlD SYSTEM GENERATED; 
) 
然后 ， 我 们 可 以 声明 关系 StarsIn 包 含 两 个 属性 ， 即 两 个 引用 ， 其 中 一 个 引用 电影 的 元 
组 ， 另 一 个 引用 影星 的 元 组 。 下 面 是 这 个 关系 的 一 个 直接 的 定义 ， 
CREATE TABLE StarsIn ( 
star REF (StarType) SCOPE MovieStar, 


movie REF(MovieType) SCOPE Movie 
) ; 


也 可 以 选择 另 一 个 方式 ， 我 们 根据 上 述 内 容 定义 一 个 UDT 类 型 ， 然 后 把 StarsITn 声 明 为 
该 类 型 的 一 个 表 。 oO 


9.4.5 习题 
习题 9.4.1 写 出 以 下 类 型 的 类 型 声明 : 
a) NameType， 包 含 名 字 、 中 间 名 、 姓 以 及 一 个 头衔 。 
* b) PersonType， 包 含 人 名 和 对 其 父亲 、 和 母亲 对 象 的 引用 。 在 声明 中 必须 使 用 (a) 中 
的 类 型 。 
c) MarriageType， 包 含 结婚 日 期 和 对 丈夫 、 妻 子 对 象 的 引用 。 
习题 9.4.2 在 适当 的 地 方 使 用 类 型 声明 和 引用 属性 , 重新 设计 习题 5.2.1 中 产品 数据 库 的 模式 。 
特别 是 要 在 关系 PC、Laptop 和 Printer 中 ， 把 mode1 属 性 改 为 对 其 Product 元 组 的 引用 。 
习题 9.4.3 在 习题 9.4.2 中 ， 我 们 假定 表 PC、Laptop 和 Printer 中 的 型 号 是 对 表 
Product 中 元 组 的 引用 。 是 否 也 可 以 把 Product 中 的 model 属 性 改 为 对 该 类 型 产品 关系 
的 元 组 的 引用 ? 为 什么 ? 
* 习题 9.4.4 ”在 适当 的 地 方 使 用 类 型 声明 和 引用 属性 ， 重 新 设计 习题 5.2.4 中 战舰 数据 库 的 
模式 。 习 题 9.1.3 的 模式 会 提示 在 什么 地 方 引用 属性 。 试 找 出 多 对 一 联系 ， 并 用 一 个 引用 类 
型 的 属性 来 表示 它们 。 


9.5 对 象 关系 数据 上 的 操作 


从 前 面 的 章节 中 看 到 ， 在 用 UDT 声 明 或 含有 UDT 类 型 属性 的 表 上 ， 可 以 运用 所 有 适当 的 
SQL 操作 。 还 可 使 用 一 些 全 新 的 操作 ， 如 引用 跟随 。 但 是 我 们 熟悉 的 某 些 操作 ， 特 别 是 访问 或 
者 修改 类 型 是 UDT 的 列 ， 将 涉及 到 新 的 语法 。 

9.5.1 引用 的 跟随 (Following Reference ) 
假设 x 类 型 为 REF (T) 的 一 个 值 ， 那 么 x 引用 类 型 7 的 某 个 元 组 t:。 通 过 以 下 两 种 方法 ,我们 


RB 


WRG TAA, 或 者 中 的 成 员 : 

1. 操作 符 -> 本 质 上 和 在 C 语 言 中 的 含义 相同 。 也 就 是 说 ， 如 果 x 是 对 元 组 的 一 个 引用 ， 且 a 
是 的 一 个 属性 ， 那 么 x->a 就 是 元 组 中 属性 a 的 值 。 

2. DEREF 操 作 符 作用 于 一 个 引用 ， 并且 生成 被 引用 的 元 组 。 

例 9.26 ”使 用 例 9.25 中 的 关系 StarsIn 查 找 Mel Gibson 扮演 过 的 电影 。 回 顾 一 下 ， 该 关系 
模式 如 下 : 


StarsIn(star, movie) 
其 中 ，star 和 movie 分 别 是 对 MovieStar 和 Movie 中 元 组 的 引用 。 可 能 的 查询 如 下 : 


1) SELECT DEREF (movie) 
2) FROM StarsIn 
3) WHERE star->name = ’Mel Gibson’; 


在 第 (3) 行 中 ， 表达 式 star->name 生 成 Moviestazr 元 组 中 的 name 分 量 的 值 ， 而 这 个 
MovieStar 元 组 是 被 任意 给 定 的 一 个 starsin 元 组 的 分 量 star 所 引用 的 。 因 此 ，WHERE 子 
名 标识 这 样 一 些 SstarsIn 元 组 ， 它 们 的 分 量 star 都 是 对 name 值 为 Mel-Gibson 的 MovieSstar 
元 组 的 引用 。 第 (1) 行 则 生成 那些 相应 的 StarsIn 元 组 中 movie 分 量 所 引用 的 电影 元 组 。 所 有 
三 个 属性 title、year 和 inColor 都 将 出 现在 输出 结果 中 。 

注意 我 们 可 以 用 下 面 的 语句 代替 第 (1) 行 : 


1) SELECT movie 


但 是 ， 如 果 我 们 这 样 做 的 话 ， 将 会 得 到 一 些 无 用 的 数据 。 这 些 数据 是 系统 产生 的 ， 被 用 作 
这 些 元 组 的 惟一 的 内 部 标识 符 。 在 被 引用 的 元 组 中 ， 我 们 是 不 会 看 到 这 些 信息 的 。 口 


9.5.2 访问 UDT 类 型 元 组 的 属性 

当 我 们 定义 一 个 含有 UDT 的 关系 的 时 候 ， 必 须 把 元 组 看 做 是 单独 的 对 象 ， 而 不 能 看 做 是 以 
UDT 属 性 为 成 员 的 列表 。 这 里 有 一 个 恰当 的 例子 ， 我 们 来 考虑 图 9-11 中 声明 的 关系 Movie。 这 
个 关系 有 一 个 UDT 类 型 MovieType， 它 有 三 个 属性 : title、vyear 和 incolor。 但 是 ， 
Movie 当 中 的 元 组 ! 只 有 一 个 分 量 ， 而 不 是 三 个 。 这 个 分 量 就 是 这 个 对 象 本 身 。 

如 果 我 们 深入 到 这 个 对 象 内 部 ， 可 以 从 中 取得 类 型 MovieType 的 三 个 属性 的 值 ， 并 且 可 
以 使 用 该 类 型 定义 的 任何 方法 。 但 是 ， 我 们 有 时 访问 的 属性 不 属于 这 个 元 组 本 身 。 这 样 ，UDT 
都 为 自己 的 每 一 个 属性 隐 含 地 定义 了 一 个 观测 方法 (observer method)。 属 性 x 的 观测 方法 的 名 字 
是 x0。 我 们 可 以 像 使 用 该 UDT 的 任何 其 他 方法 一 样 地 使 用 这 个 方法 ， 用 点 号 把 它 接 到 计算 该 
类 型 对 象 的 表达 式 后 面 。 因 此 ， 如 果 ! 是 类 型 7 的 变量 ，x 是 7 的 一 个 属性 ， 那 么 1.x0 就 是 :代表 的 
元 组 (对象) 中 x 的 值 。 

例 9.27 让 我 们 从 图 9-11 的 关系 Movie 中 找 出 电影 King Kong 的 年 份 。 一 种 解决 方案 是 : 

SELECT m.year() 

FROM Movie m 

WHERE m.title() = ’King Kong’; 

虽然 元 组 变量 m 出 现在 这 里 不 是 必要 的 ， 但 是 我 们 需要 一 个 变量 ， 它 的 值 是 类 型 为 
MovieType (关系 Movie 的 UDT ) 的 对 象 。WHERE 子 名 的 条 件 表达 式 把 常量 ‘King Kong’ 
与 m.title() 进 行 比较 。 后 者 就 是 类 型 MovieType 的 属性 title 的 观测 器 方法 。 同 样 的 ， 
SELECT 子 句 中 的 值 用 nm.yeazr () 来 表示 ， 这 个 表达 式 把 属性 year 的 观测 器 方法 作用 到 对 象 m 

















IF 
上 。 口 


9.5.3 生成 器 和 转换 器 范 数 
为 了 生成 UDT 中 的 数据 ， 或 者 改变 UDT 对 象 的 成 员 ， 我 们 可 以 使 用 两 类 方法 。 每 当 定义 一 
个 UDT 时 ， 这 些 方法 连同 观测 器 方法 一 起 自动 创建 。 这 两 类 方法 是 : 
1. 生成 函数 (generator method )。 这 个 方法 的 名 字 就 是 类 型 和 名， 并 且 没 有 参数 。 它 还 有 一 
个 特别 的 性 质 是 调用 不 需要 作用 到 某 个 具体 的 对 象 上 。 也 就 是 说 ， 如 果 T 是 一 个 UDT， 那 么 TO 
将 返回 一 个 类 型 为 7 的 对 象 ， 而 该 对 象 的 各 个 成 分 是 没有 值 的 。 
2. 转换 函数 (mutator method )。UDT 类 型 7 的 每 个 属性 x， 都 有 一 个 转换 器 方法 x(v)。 当 这 
个 方法 作用 到 7 的 一 个 对 象 上 时 ， 它 把 该 对 象 的 属性 x 的 值 改 为 v。 注 意 ， 一 个 属性 的 转换 函数 
和 观测 函数 的 名 字 都 是 该 属性 的 名 字 ， 区 别 仅 在 于 转换 函数 有 一 个 参数 。 
例 9.28 ”我 们 将 写 一 段 PSM 的 过 程 ， 取 街道 、 城 市 和 名 字 作 为 参数 ， 调 用 正确 的 生成 函数 
和 转换 函数 来 构造 一 个 对 象 , 并 把 它 插 和 人 到 关系 MovieSstar (依照 例 9.22, 类 型 是 starType ) 
中 。 回 顾 一 下 例 9.20，StarType 类 型 的 对 象 有 一 个 字符 串 类 型 的 成 分 name， 但 成 分 
address 本 身 就 是 类 型 为 AddressType 的 一 个 对 象 。 过 程 Insertstar 如 图 9-12 所 示 。 
CREATE PROCEDURE InsertStar ( 
IN s CHAR(50), 
IN c CHAR(20), 
IN n CHAR(30) 
) 


DECLARE newAddr AddressType; 
DECLARE newStar StarType; 


BEGIN 


SET newAddr = AddressType() ; 

SET newStar = StarType(); 

newAddr. street (s); 

newAddr.city(c); 

newStar.name(n); 
newStar.address(newAddr) ; 

INSERT INTO MovieStar VALUES(newStar) ; 





图 9-12 创建 和 存储 StarType 对 象 


第 (2) 到 (4) 行 引进 参数 ;、c 和 n， 分 别提 供 街 道 、 城 市 和 影星 名 字 。 第 (5) 到 (6) 行 声明 了 两 个 
局 部 变量 ， 两 者 的 类 型 都 是 关系 Moviestar 所 涉及 的 UDT 类 型 。 在 第 (7) 行 和 第 (9) 行 ,我们 创 
建 了 这 两 个 类 型 的 空 对 象 。 

第 (9) 行 和 第 (10) 行 从 过 程 的 参数 中 取得 两 个 真正 的 值 ， 并 赋 给 对 象 newadadr ， 这 些 参数 提 
供 街道 和 城市 和 名。 类 似 地 ， 第 (11) 行 把 参数 m 作 为 对 象 newSstar 中 成 分 name 的 值 。 而 第 (12) 行 
把 整个 newaddr 对 象 作为 newStazr 中 成 分 address 的 值 。 最 后 ， 第 (13) 行 把 构造 好 的 对 象 插 
人 到 关系 MovieStar 中 。 注 意 ， 与 通常 一 样 ， 一 个 以 UDT 为 类 型 的 关系 只 有 一 个 单独 的 成 分 ， 
即使 这 个 成 分 有 多 个 属性 ( 比如 这 个 例子 中 的 name 和 address ) 也 是 如 此 。 

要 将 一 个 影星 插 和 人 MovieStar 中 ,我 们 可 以 调用 LInsertstar 过 程 。 下 面 是 一 个 例子 : 


InsertStar(’345 Spruce St.’, ’Glendale’, ’Gwyneth Paltrow’); 


DREHER 


INSERT INTO MovieStar VALUES( 


如 果 DBMS 提 供 或 者 自己 创建 一 个 生成 函数 ， 使 该 生成 函数 以 UDT 属 性 作为 输入 ， 并 返回 
例 9.28 的 末尾 使 用 如 下 的 INSERT 语 句 进行 插入 操作 : 
StarType(’Gwyneth Paltrow’, 


一 个 合适 的 对 象 ， 那 么 把 对 象 插入 含有 UPDT 的 关系 中 将 变 得 更 简单 。 例 如 : MORI CAA A 


WaddressType(s, c) 和 函数 StarType (n, a) ， 它 们 返回 指定 类 型 的 对 象 ， 那么 就 可 以 在 
AddressType(’345 Spruce St.’ 
9.5.4 UDT 类 型 联系 的 排序 


Glendale’ ))); 
某 些 UDT 类 型 的 对 象 本 质 上 是 抽象 的 。 在 这 个 意义 上 ， 没 法 对 同一 个 UDT 的 两 个 对 象 进行 
比较 ， 不 管 是 测试 它们 是 否 “相等 "， 还 是 测试 其 中 一 个 比 另 一 个 小 。 即 使 两 个 对 象 的 所 有 成 
象 中 哪 一 个 先 于 另 一 个 。 


分 都 相同 ， 也 不 会 认为 这 两 个 对 象 是 相等 的 ， 除 非 我 们 告诉 系统 把 它们 看 做 是 相等 的 。 同 样 ， 


1. 语句 


也 无 法 对 一 个 含有 UDT 的 关系 的 元 组 进行 排序 ， 除 非 我 们 定义 一 个 函数 ， 指 明 该 UDT 的 两 个 对 
WHERE 子 句 中 不 能 使 用 ORDER BY 子 句 或 比较 符 “< '， 除 非 我 们 能 对 两 个 元 素 进行 比较 。 


然而 ，SQL 中 有 许多 操作 ， 需 要 进行 相等 关系 测试 或 同时 需要 进行 相等 关系 测试 和 小 于 关 
系 测 试 。 例 如 ， 如 果 不 能 指出 两 个 元 组 是 否 相等 ， 那 么 我 们 将 无 法 排除 重复 的 元 组 。 如 果 无 法 
对 一 个 UDT 做 相等 关系 测试 ， 那 么 我 们 就 不 能 对 一 个 UDT 类 型 的 属性 进行 分 组 。 我 们 在 


为 了 说 明 一 个 排序 或 比较 操作 , SQL 人 允许 我 们 用 CREATE ORDERING 语 句 来 声明 一 个 UDT。 
其 中 有 许多 种 声明 的 格式 ， 这 里 仅 列 出 最 简单 的 两 种 : 


CREATE ORDERING FOR T EQUALS ONLY BY STATE; 
在 UDT 类 型 7 的 对 象 上 没有 定义 “<” 操作 。 
2. 下 列 语句 


指明 UDT 类 型 7 的 两 个 成 员 ， 如 果 它 们 相应 的 分 量 是 一 样 的 ， 那 么 就 可 以 认为 是 相等 的 。 这 里 
CREATE ORDERING FOR T 


ORDERING FULL BY RELATIVE WITH F 
指明 了 6 种 比较 : <、 <=、>、>=、= 和 <>， 都 可 以 作用 到 UDT 类 型 7 的 对 象 上 。 为 了 说 明 对 象 xI 
和 x2 是 怎样 作 比较 的 ， 我 们 把 函数 F 作 用 到 这 些 对 象 上 。 函 数 F 的 实现 必须 这 样 写 ， 如 果 
Xl < Xo, ABA F(x, x2) < 0; WWF, X2) = O# AX, = X23 F(x, x2) > 0 表示 加 > X20 如 果 将 
ORDERING FULL 换 为 EQUALS ONLY， 那 么 F(xi, x) = 0 表示 = 20, MF On, x2) 的 其 他 值 则 表 
示 E 2。 在 这 种 情况 下 ， 不 能 用 “< ”符号 进行 比较 。 
操作 ， 可 以 如 下 声明 : 


而 且 地 址 是 相同 的 UDT 类 型 AddressType 对 象 。 


例 9.29 ”让 我 们 考虑 例 9.20 中 UDT 类 型 starType 的 一 个 可 能 的 排序 。 如 果 仅 要 进行 等 于 
CREATE ORDERING FOR StarType EQUALS ONLY BY STATE; 


该 语句 指明 两 个 starType 类 型 的 对 象 是 相等 的 ， 当 且 仅 当 它们 的 名 字 是 相同 的 字符 串 ， 


这 里 的 问题 在 于 ， 除 非 我 们 定义 了 AddressType 的 排序 ， 否则 该 类 的 对 象 甚至 不 能 等 于 
自身 。 因 此 ， 我 们 至 少 还 要 测试 AddressType 对 象 是否 相 等 。 一 个 简单 的 做 法 是 : 声明 两 个 
AddressType 对 象 是 相等 的 ， 当 且 仅 当 这 两 个 对 象 的 street 和 city 是 相同 的 。 做 法 如 下 : 
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CREATE ORDERING FOR AddressType EQUALS ONLY BY STATE; 

另 一 种 做 法 是 : 我 们 也 可 以 定义 AddressType 对 象 的 一 个 完整 排序 。 一 个 合理 的 地 址 排 
序 是 , 先 以 城市 的 字母 序 进行 排序 ， 有 相同 城市 的 地 址 再 通过 街道 名 的 字母 序 进行 排序 。 为 此 ， 
我 们 必须 定义 一 个 函数 AdadqarLEG， 该 函数 以 两 个 AdaaressType 对 象 作为 参数 ， 比 较 后 返回 一 
个 负 值 、 零 或 正 值 ， 分 别 表示 第 一 个 小 于 、 等 于 或 大 于 第 二 个 对 象 。 我 们 可 以 做 如 下 声明 : 


CREATE ORDERING FOR AddressType 
ORDER FULL BY RELATIVE WITH AddrLEG 


图 9-13 给 出 了 函数 AddrLEG。 注意， 如 果 我 们 可 以 到 达 第 (7) 行 ,那么 两 个 city 成 分 是 相 
同 的 ， 因 此 可 以 接着 比较 street 成 分 。 同 样 地 ， 如 果 我 们 到 达 第 (9) 行 ， 那 么 剩 下 的 惟一 可 能 
就 是 两 个 ci cy 是 相同 的 ， 而 且 在 字母 序 上 ， 第 一 个 stxreet 排 在 第 二 个 的 前 面 。 口 

CREATE FUNCTION AddrLEG( 
x1 AddressType, 


x2 AddressType 
) RETURNS INTEGER 


IF xi.cityQ < x2.city() THEN RETURN(-1) 


ELSEIF xl.city() > x2.city() THEN RETURN(1) 
ELSEIF x1i.street() < x2.street() THEN RETURN(-1) 
ELSEIF x1i.street() = x2.street() THEN RETURN(0) 
ELSE RETURN(1) 

END IF; 


图 9-13 地 址 对 象 的 一 个 比较 函数 





9.5.5 习题 
习题 9.5.1 ”使 用 例 9.25 中 的 starsIn 关 系 以 及 通过 Starsin 可 以 访问 到 的 Movie 和 和 
MovieStar 关 系 ， 写 出 以 下 的 查询 : 
* a) 查找 电影 1shtar 中 所 有 影星 的 姓名 。 
*! b) 查找 出 演 影星 中 至 少 有 一 个 住 在 Malibu 的 所 有 电影 的 片 名 和 年 份 。 
c) 查找 影星 Melanie Griffith 演 过 的 电影 (MovieType 类 型 的 对 象 )。 
d 查找 至 少 有 5 位 影星 出 演 的 电影 ( 包括 名 字 与 年 份 )。 
习题 9.5.2 使 用 你 在 习题 9.4.2 中 采用 的 模式 ， 写 出 以 下 的 查询 ,切记 随时 使 用 引用 。 
a) 查找 硬盘 大 于 60 GB 的 PC 机 的 制造 商 。 
b) 查找 生产 激光 打印 机 的 制造 商 。 
! c) 创建 一 张 表 ， 对 每 一 款 手 提 电 脑 ， 给 出 辣 一 个 制造 商 生 产 的 、 具 有 最 快 处 理 速 度 手 
提 电 脑 的 型 号 。 
习题 9.5.3 使 用 习题 9.4.4 中 的 模式 ， 写 出 以 下 的 查询 。 切 记 随 时 使 用 引用 ， 并 避免 含有 连 
接 操 作 ( 即 子 查询 或 FROM 子 句 中 含有 不 止 一 个 元 组 变量 )， 
* a) 查找 排水 量 大 于 35 000 吨 的 舰只 。 
b) 查找 至 少 有 一 艘 战舰 沉没 的 战役 。 
! c) 查找 在 1930 年 之 后 下 水 的 战舰 的 类 别 。 
!! gd) 查找 至 少 有 一 艇 美国 舰 船 受 创 的 战斗 。 
_ 习题 9.5.4 ”假设 图 9-13 的 AddrLEG 函 数 是 可 用 的 ， 写 一 个 适当 的 函数 来 比较 StarType 类 
型 的 对 象 ， 并 把 该 函数 声明 为 StarType 对 象 排序 的 基准 。 


GEIRE 


中 含有 该 影星 的 元 组 。 
9.6 小 结 
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*! 习题 9.5.5 写 一 个 过 程 ， 使 该 过 程 以 影星 名 字 为 参数 ， 并 且 删 除 StarsIn 与 MovieStar 
*“OQL 中 的 select-from-where 语 句 : OQL 提 供与 SQL 类 似 的 select-from-where 表 达 式 。 在 
作为 值 的 集 。 


FROM 子 句 中 ， 我 们 可 以 声明 集 内 任意 变量 ， 包 括 类 扩展 (类似 于 关系 ) 和 以 对 象 的 属性 


但 是 在 OQL 中 ， 每 一 组 的 对 象 的 集 是 通过 一 个 称 为 partition 的 域名 进行 显 式 访问 的 。 
一 个 列表 ; 然后 利用 宿主 语 


ai 


“公用 的 OQL 操 作 符 : OQL 提 供与 5QL 中 类 似 的 操作 符 ， 如 全 称 量词 、 存 在 量词 、IN、 并 、 


交 、 差 和 聚集 操作 符 。 但 是 ， 聚 集 操 作 始 终 在 一 个 集 上 进行 ， 而 不 在 关系 的 某 一 列 上 进行 。 
。OQL 的 分 组 操作 :与 SQL 类 似 ， OQL 在 select-from-where 语 句 中 也 提供 GCROUP BY 子 句 。 


“从 OQL 和 集合 中 提取 元 素 : 我 们 可 以 使 用 操作 符 ELEMENT 从 一 个 单元 素 集中 提取 出 该 成 员 。 
语言 中 的 循环 语句 依次 访问 每 个 元 素 。 


如 果 集 含有 多 个 成 员 ， 那 么 先 在 select-from-where 子 句 中 使 用 ORDER BY 子 句 将 集 转化 为 
对 UDT 类 型 可 以 声明 方法 。 


的 对 象 的 指针 。 


“SQL 中 的 用 户 定 义 类 型 : SQL 中 的 对 象 关系 功能 都 是 围绕 着 UDT ( 用 户 定义 类 型 ) 展开 
个 属性 。 如 果 这 样 做 ， 那 么 该 关系 的 元 组 将 有 一 个 UDT 对 象 的 成 分 。 


的 。 这 些 类 型 的 声明 与 表 声明 类 似 ， 是 通过 列 出 它们 的 属性 和 其 他 信息 进行 的 。 此 外 ， 
“有 UDT 类 型 的 关系 ; 我 们 可 以 声明 一 个 关系 含有 某 个 UDT 类 型 ， 而 不 是 声明 该 关系 的 各 


用 户 可 以 访问 该 OID 列 ， 尽管 它 没有 什么 意义 。 


“引用 类 型 : 一 个 属性 的 类 型 可 以 是 一 个 对 UDT 的 引用 ， 这 些 属 性 实质 上 是 指向 该 UDT 类 
“UDT 的 对 象 标识 : 当 创 建 一 个 类 型 为 UDT 的 关系 时 ， 我 们 将 为 每 一 个 元 组 声明 一 个 属性 


作为 该 元 组 的 “对 象 标识 "。 该 成 分 是 指向 这 个 元 组 本 身 的 指针 。 与 面向 对 象 系统 不 同 ， 
9.7 参考 文献 


“访问 UDT 中 的 分 量 : SQL 为 UDT 的 每 一 个 属性 提供 了 观测 器 和 转化 器 函数 。 当 它们 作用 
于 UDT 类 的 任何 对 象 时 ， 这 些 函 数 将 分 别 返 回 或 修改 给 定 的 属性 值 。 
特征 的 资料 。 


OQL 的 参考 文献 与 ODL 是 一 样 的 可 参见 [1]。 可 以 从 第 6 章 给 出 的 书目 中 得 到 关于 面向 对 象 
gan-Kaufmann, San Francisco, 1999. 
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第 10 章 ”逻辑 查询 语言 


与 我 们 在 5.2 节 介绍 过 的 代数 相 比较 ， 有 些 关系 模型 查询 语言 更 像 是 一 种 逻辑 。 然 而 基于 
逻辑 的 语言 对 于 许多 程序 员 来 说 似乎 很 难 掌握 ， 所 以 我 们 把 查询 语言 的 逻辑 研究 放 在 最 后 。 

我 们 下 面 要 介绍 Datalog ， 一 种 为 关系 模型 设计 的 形式 最 为 简单 的 逻辑 。Datalog 的 非 递归 
形式 和 传统 的 关系 代数 有 同样 的 能 力 。 然 而 如 果 人 允许 递归 ， 我 们 可 以 用 Datalog 表 示 出 SQL2 所 
不 能 表示 的 查询 〈 除非 添加 例如 PSM 的 过 程 编程 )。 我 们 还 考虑 了 因 人 允许 否定 递归 而 带 来 的 复 
杂 性 ， 最 后 我 们 介绍 Datalog 所 提供 的 实现 在 最 新 的 SQL-99 标 准 中 、 更 有 意义 的 递归 的 方法 。 


10.1 一 种 关系 逻辑 


我 们 可 以 利用 代数 ， 将 查询 语言 抽象 表示 为 一 种 逻辑 形式 。 逻 辑 查询 语言 Datalog 
(database logic ) 由 f-then 规 则 组 成 。 这 些 规则 表示 : 从 特定 关系 特定 元 组 的 组 合 中 可 以 推断 出 
另 一 关系 中 的 某 个 元 组 ， 或 是 一 个 查询 结果 中 的 某 个 元 组 。 

10.1.1 谓词 和 原子 

关系 在 Datalog 中 由 谓词 表示 。 每 个 谓词 拥有 固定 数目 的 参数 ， 一 个 谓词 和 它 的 参数 一 起 
被 称 为 原子 。 原 子 的 语法 就 像 传 统 编程 语言 中 的 函数 调用 。 例 如 :P(x1/，x2，...，x) 即 是 一 个 
由 谓词 P 和 参数 x!，x;，...， 太 组 成 的 原子 。 

实质 上 ,谓词 就 是 一 个 返回 布尔 量 的 函数 名 。 如 果 R 是 一 个 包含 x 个 具有 固定 顺序 的 属性 的 
关系 ， 那 么 我 们 也 应 该 用 R 作 为 对 应 这 个 关系 的 谓词 名 。 如 果 (a, a, .., a) 是 满足 R 的 元 
组 ， 那 么 原子 R (ai, a, ..., ar) 的 值 为 TRUE， 否 则 原子 的 值 为 FALSE。 

例 10.1 如 关系 R 是 : 


那么 R(1, 2) 为 Lrue，R(3, 4) 也 为 Lrue。 当 x 和 y 为 其 他 任意 值 时 ，R(x, y) 都 为 false。 O 


谓词 可 以 用 变量 和 常量 作为 参数 。 如 果 一 个 原子 以 变量 作为 它 的 一 个 或 多 个 参数 ， 那 么 它 
是 一 个 以 变量 为 参数 并 返回 TRUE 或 FALSE 的 布尔 值 函 数 。 

例 10.2 ”如 果 R 是 例 10.1 的 谓词 ， 那么 函数 R(x, ER: 对 任意 x 和 y， 元 组 (x,y) 是 否 在 关系 
R 中 。 对 于 在 例 10.1 中 给 出 的 特定 例子 ， 当 


1.x=1 且 y=2 或 

2.x=3 Hy =4 
R(x, 7) 返 回 TRUE， 否 则 返回 FALSE。 另 举 一 例 ， 若 z =2, ATRA, z) 返 回 TRUE， 否 则 返回 
FALSE, 口 


10.1.2 算术 原子 
在 Datalog 中 另 有 一 种 很 重要 的 原子 ; 算术 原子 。 这 种 原子 表示 两 个 算术 表达 式 之 间 的 比 
较 ， 例 如 x<y 或 x+1 宇 y+4 x z。 相 对 地 ， 我 们 把 在 10.1.1 节 中 介绍 的 原子 称 为 关系 原子 。 它 们 都 
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是 “原子 ”。 

注意 ， 算 术 原 子 和 关系 原子 都 将 所 有 出 现在 原子 中 的 变量 值 作 为 参数 ， 并 且 都 返回 一 个 布 
尔 值 。 实 际 上 ， 诸 如 “<” 或 “>” 之 类 的 算术 比较 符号 象 关 系 名 一 样 地 包含 所 有 满足 它 的 元 
组 。 因 此 ,我们 可 以 将 关系 “<” 看 做 第 一 组 元 小 于 第 二 组 元 的 所 有 元 组 ， 如 (12) 和 (-1.5,65.4)。 
然而 要 记 住 数据 库 中 的 关系 总 是 有 限 的 ， 而 且 通 常 是 随 着 时 间 变 化 的 。 相 反 地 ， 算 术 比 较 关 系 ， 
如 “<”， 却 是 无 限 且 不 变 的 。 
10.1.3 Datalog 规 则 和 查询 

与 5.2 节 经 典 关 系 代 数 中 所 述 类 似 的 操作 在 Datalog 中 称 做 规则 ， 它 包括 ; 

1. 一 个 称 为 头 部 的 关系 原子 。 

2. 符号 一 ， 位 于 头 部 之 后 ， 我 们 经 常 读 作 “if”。 

3. 一 个 主体 部 分 ， 位 于 “二 ”之 后 ， 由 一 个 或 多 个 称 为 子 目标 的 原子 组 成 。 原 子 可 以 是 关 
系 原子 或 算术 原子 。 子 目标 之 间 由 AND 连 接 ， 任 何 子 目 标 之 前 都 可 随意 添加 逻辑 算 子 NOT。 

例 10.3 Datalog 规 则 


LongMovie(t,y) ¢ Movie(t,y,1,c,s,p) AND 1 = 100 


定义 了 “long”movie 的 集合 是 时 间 长 于 100 分 钟 的 。 它 使 用 了 我 们 的 标准 关系 movie， 其 模式 
是 : 


Movie(title, year, length, inColor, studioName, producerC#) 


这 个 规则 的 头 部 是 原子 LongMovie(t, y)。 规 则 的 体 部 包括 如 下 两 个 子 目 标 : 

1. 第 一 个 子 目标 包括 谓词 Movie 和 六 个 参数 ， 对 应 于 Movie 关 系 的 六 个 属性 。 每 个 参数 都 
对 应 不 同 的 变量 : :是 citle 组 元 ， ?是 year 组 元 ，! 是 1ength 组 元 ， 依 次 类 推 。 我 们 可 以 把 
TERAM: “HEG, y, 1 c, s, p ) 作 为 Movie 关 系 当 前 实例 的 一 个 元 组 。” 更 确切 地 说 ， 当 这 六 个 
变量 就 是 一 个 Movie 元 组 的 六 个 组 元 的 值 时 ，Moviedt, y, J, c, s,p ) 为 真 。 

2. 第 二 个 子 目标 ，!> 100。 当 一 个 Movie 元 组 的 length 组 元 不 小 于 100 时 该 目标 为 真 。 

这 个 规则 可 以 完整 地 说 成 : 当 我 们 发 现在 Movie 中 有 一 个 元 组 满足 以 下 条 件 时 LongMovie(t 
yA: 

a) t 和 y 是 前 两 个 组 元 (作为 title 和 year ) 

b) 第 三 个 组 元 / ( 作为 length ) 至 少 为 100 


c) 组 元 四 到 六 为 任意 值 。 
注意 ， 这 个 规则 等 价 于 关系 代数 中 的 “赋值 语句 : 
LongMovie := Mute year (Giength>100 (Movie) ) 
其 右边 是 一 个 关系 代数 表达 式 。 口 


匿名 变量 
Datalog 规 则 中 经 常会 有 一 些 只 出 现 一 次 的 变量 。 这 些 变量 所 用 的 名 字 互 不 相干 的 。 
只 有 当 一 个 变量 出 现 不 止 一 次 时 我 们 才 注 意 它 的 名 字 ， 我 们 会 发 现 这 是 同一 个 变量 的 第 


二 次 出 现 或 更 多 次 之 后 的 重新 出 现 。 因 此 ， 为 了 方 使 ， 我 们 将 允许 把 下 划 线 作为 原子 的 
参数 ， 代 替 仅 在 那里 出 现 的 变量 。 多 个 _ 的 出 现代 表 不 同 的 变量 ， 而 不 是 同一 个 变量 。 举 
例 来 说 ， 例 10.3 的 规则 可 以 写作 . 


LongMovie(t,y) «-Movie(t,y,1 _,_) AND 12100 


Si on: a S 





这 三 个 仅 出 现 一 次 的 变量 c<，8，Pp 都 被 下 划 线 代替 。 因 为 其 他 变量 都 在 规则 中 出 现 两 次 ， 
我 们 无 法 替换 它们 。 





Datalog 中 的 查询 是 一 个 或 多 个 规则 的 组 合 。 如 果 只 有 一 个 关系 出 现在 规则 头 部 ， 那 么 这 
个 关系 的 值 就 是 查询 的 结果 。 因 此 在 例 10.3 中 ，LongMovie 就 是 查询 的 结果 。 如 果 规 则 头 部 
有 不 止 一 个 关系 ， 那 么 除 一 个 是 查询 结果 外 ， 其 余 的 用 来 辅助 定义 查询 结果 。 我 们 必须 指定 哪 
一 个 关系 是 所 期 望 的 查询 结果 ， 或 通过 给 关系 命名 ， 如 Answer ， 来 指定 。 
10.1.4 ”Datalog 规 则 的 意义 

例 10.3 引 伸 出 Datalog 规 则 的 意义 。 更 确切 地 说 ， 假 设 规则 的 变量 涉及 所 有 可 能 的 值 ， 只 要 
这 些 变量 的 值 使 得 所 有 子 目 标 为 真 ， 那 么 我 们 即 得 到 对 应 于 这 些 变量 的 规则 头 部 的 值 ， 并 可 把 
结果 元 组 加 入 到 头 部 谓词 的 关系 中 ,关系 的 谓词 可 由 规则 头 部 得 到 。 

举例 来 说 ， 我 们 假设 例 10.3 中 的 六 个 变量 涉及 所 有 可 能 值 。 仅 当 (z, y, L c s, p ) 的 值 以 顺序 
构成 Movie 的 一 个 元 组 时 ， 这 些 值 的 组 合 才能 使 全 部 子 目标 为 真 。 而 且 ， 子 目标 [> 100 也 必须 
为 真 ， 元 组 长 度 组 元 的 值 / 至 少 为 100。 当 我 们 发 现 这 样 一 种 值 的 组 合 时 ， 则 把 元 组 (1,y) 放 在 规 
则 头 部 的 LongMovie 关 系 中 。 

然而 我 们 在 规则 中 使 用 变量 还 是 有 限制 的 ， 因 此 一 条 规则 的 结果 是 一 个 有 限 的 关系 ， 而 且 
包含 算术 子 目 标 和 否定 子 目 标 (前 面 有 NOT 算 子 ) 的 规则 的 意义 是 很 明显 的 。 我 们 称 以 下 条 件 aeg 
为 安全 条 件 : 

“每 个 在 规则 中 任意 位 置 出 现 的 变量 都 必须 出 现在 某 个 非 否定 的 关系 子 目 标 中 。 

尤其 是 ， 任 何在 规则 头 部 、 和 否定 关系 子 目标 或 算术 子 目标 中 出 现 的 变量 ， 也 必须 出 现在 一 
个 非 否 定 的 关系 子 目标 中 。 


例 10.4 考虑 例 10.3 中 的 规则 
LongMovie(t,y) + Movie(t,y,1,_,-,-) AND 1 = 100 


第 一 个 子 目标 是 非 否定 的 关系 子 目 标 ， 它 包含 了 所 有 在 规则 中 出 现 的 变量 ， 尤 其 是 在 头 部 
中 出 现 的 两 个 变量 5 和 ?都 在 体 部 的 第 一 个 子 且 标 中 出 现 。 同 样 地 ， 变 量 在 一 个 算术 子 目 标 中 出 
现 , 但 它 也 出 现在 第 一 个 子 目 标 中 。 口 
例 10.5 下 面 的 规则 有 三 处 不 安全 : 


P(x,y) + Q(x,z) AND NOT R(w,x,z) AND x<y 


1. 变量 y 出 现在 头 部 但 不 在 任何 非 否定 关系 在 中 出 现 。 注 意 ，y 出 现在 算术 子 目标 x<y 中 并 
不 能 把 y 的 可 能 值 限定 在 一 个 有 限 集合 内 。 我 们 若 取 值 a、b、c 分 别 对 应 w，x，z 以 满足 前 两 个 
子 目 标 ， 则 头 部 的 关系 P 中 满足 4>b 的 元 组 (5, d) 有 无 限 多 个 。 

2. 变量 w 出 现在 一 个 否定 的 关系 子 目 标 中 ， 而 不 在 非 否 定 的 关系 子 目 标 中 。 

3. 变量 y 出 现在 一 个 算术 子 目标 中 ， 但 不 在 非 否 定 的 关系 子 目 标 中 。 

因此 ， 这 不 是 一 条 安全 规则 ， 不 能 用 在 Datalog 中 。 口 


还 有 另 一 种 方法 定义 规则 的 意义 。 不 去 考虑 所 有 可 能 的 变量 赋值 ， 而 是 考虑 对 应 于 每 个 非 
否定 关系 子 目标 关系 的 元 组 集合 。 如 果 某 种 元 组 的 赋值 对 每 个 非 否定 关系 子 目标 都 是 一 致 的 ， 
也 就 是 说 对 同一 个 变量 的 每 次 出 现 都 赋 同 一 个 值 ， 则 考虑 对 规则 的 所 有 变量 赋值 。 注 意 ， 这 是 
因为 规则 是 安全 的 ， 一 个 变量 赋 一 个 值 。 
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对 每 种 一 致 性 赋值 ， 我 们 考虑 否定 关系 子 目 标 和 算术 子 目标 ， 看 看 变量 的 赋值 是 否 使 得 
它们 都 为 真 。 记 住 ， 若 一 个 否定 关系 子 目 标的 原子 为 假 ， 该 子 目 标 为 真 。 如 果 所 有 子 目 标 为 
真 ， 那 么 我 们 则 知道 了 在 这 种 变量 赋值 下 的 规则 头 部 的 元 组 。 这 个 元 组 被 加 入 谓词 头 部 所 在 
的 关系 中 。 

例 10.6 考虑 Datalog 规 则 


P(x,y) + Qtx,z) AND R(z,y) AND NOT Q(x,y) 
设 关系 Q 包 含 两 个 元 组 (1, 2) 和 (1, 3)。 设 关系 R 包 含 元 组 (2, 3) 和 (3, 1)。 这 里 有 两 个 非 否 定 
的 关系 子 目 标 Q(x, z) 和 R(z, y)， 所 以 我 们 必须 分 别 考虑 这 两 个 子 目标 的 关系 QO 和 R 中 元 组 的 所 有 
赋值 组 合 。 图 10-1 中 的 表格 考 虚 了 所 有 四 种 组 合 。 


Q(x,z) R(z,y) 一 致 性 赋值 ? ee | aasan 


的 元 组 的 元 组 
不 是 一 
无 关 一 
无 关 一 
是 P(1,1) 


(1, 2) (2,3) 是 
(1,3) (2, 3) 不 是 ; 2 = 3.2 
图 10-1 Q(x,z) 和 R(z,y) 中 元 组 的 所 有 可 能 赋值 


(1,3) (3, 1) 是 

图 10-1 中 的 第 二 和 第 三 选项 是 不 一 致 的 。 每 个 选项 都 赋 给 变量 z 两 个 不 同 的 值 。 因 此 ， 我 
们 不 再 考虑 这 些 元 组 的 赋值 。 

第 一 个 选项 中 ， 子 目标 Q(x, z) 被 赋值 为 元 组 (1,2) 而 子 目 标 R(z, y) 被 赋值 为 元 组 (2,3)， 这 是 
一 致 性 赋值 ，x、y 和 z 分 别 被 赋值 为 !、3、2。 我 们 下 面 开 始 检验 其 他 不 是 非 否 定 关系 的 子 目 标 。 
只 有 一 个 : NOT Q(x,y)。 对 这 一 赋值 ， 该 子 目标 成 为 NOT Q(1,3)。 由 于 (1,3) 是 0 的 一 个 元 
组 ， 这 个 子 目标 为 假 ， 对 于 这 个 元 组 -赋值 (1) 可 以 生成 没有 头 部 的 元 组 。 

最 后 的 选项 是 (4)。 该 选项 是 一 致 性 赋值 : x、y、z 分 别 被 赋值 为 1、1、3。 子 目标 NOT 
Q(x,y) 的 值 为 NOT Q(1,1)。 由 于 (1,1) 不 是 0 的 元 组 ， 这 个 子 目 标 为 真 。 这 样 我 们 根据 这 一 变量 赋 
值 计算 头 部 PCx,y) 得 到 P(1,D)， 拓 以 这 个 元 组 (1,1) 在 关系 PP 中。 既然 我 们 已 经 讨论 过 所 有 可 能 的 
赋值 ， 那 么 这 个 元 组 就 是 P 中 的 惟一 元 组 。 口 


10.1.5 扩展 谓词 和 内 涵 谓 词 

对 以 下 两 者 加 以 区 分 是 必要 的 : 

。 扩 展 谓词 : 这 种 谓词 的 关系 存放 在 数据 库 中 。 

。 内 涵 谓 词 ; 这 种 谓词 的 关系 是 由 一 个 或 多 个 Datalog 规 则 计算 出 来 。 

这 两 种 谓词 之 闻 的 区 别 等 同 于 关系 代数 表达 式 的 操作 数 与 关系 代数 表达 式 计算 出 的 关系 之 
间 的 区 别 。 前 者 ， 关 系 代数 表达 式 操作 数 是 “可 扩展 的 ”( 由 它 的 扩展 ， 也 就 是 “关系 的 当前 
实例 ”来 定义 ) ; 后 者 ， 关 系 代数 表达 式 计算 出 的 关系 可 以 是 最 终结 果 也 可 以 是 对 应 菜 些 子 表 
达 式 的 中 间 结 果 ， 这 些 关系 是 “内 涵 的 ”( 由 程序 员 的 意图 而 决定 )。 

当 谈 论 Datalog 规 则 时 ,我 们 也 应 当 提 及 扩展 谓词 和 内 涵 谓 词 所 对 应 的 关系 。 我 们 用 缩写 
IDB (intensional database) 来 表示 内 涵 谓 词 和 它 对 应 的 关系 。 同样 地 ， 我 们 用 EDB (extensional 
database) 来 表示 扩展 谓词 或 关系 。 

那么 在 例 10.3 中 ，Movie 是 一 个 EDB 关 系 ， 由 它 的 扩展 来 定义 。 谓 词 Movie 同 样 是 一 个 
EDB 谓 词 。 关 系 和 谓词 LongMovie 都 是 内 涵 的 。 





1) 
2) 
3) 
4) 
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一 个 EDB 谓 词 不 可 能 出 现在 规则 头 部 ， 但 它 可 以 出 现在 规则 体 部 。IDB 谓 词 可 以 出 现在 规 
则 的 头 部 和 体 部 ， 或 者 同时 出 现在 这 两 个 位 置 。 利 用 头 部 为 同一 谓词 的 多 个 规则 建立 一 个 关系 
的 方法 也 被 普遍 使 用 。 我 们 将 在 例 10.10 中 描述 这 个 合并 两 个 关系 的 方法 。 

通过 使 用 一 系列 的 内 涵 谓 词 ， 我 们 可 以 用 EDB 关 系 逐 步 建立 更 为 复杂 的 功能 。 这 个 过 程 近 
似 于 用 几 个 算 子 建立 关系 代数 表达 式 。 
10.1.6 Datalog 规 则 应 用 于 包 

Datalog 本 质 上 是 关于 集合 的 逻辑 。 然 而 只 要 没有 否定 的 关系 子 目 标 ， 关 系 是 集合 的 情况 
下 计算 Datalog 规 则 的 方法 对 于 关系 是 包 时 同样 适用 。 当 关系 是 包 时 ， 使 用 我 们 在 10.1.4 节 给 出 
的 计算 Datalog 规 则 的 第 二 种 方法 在 概念 上 更 加 简单 。 这 个 方法 是 对 每 个 非 否定 的 关系 子 目标 ， 
找 出 它 的 谓词 关系 的 所 有 元 组 。 如 果 某 种 元 组 选择 对 每 个 子 目 标 给 出 了 一 致 性 变量 赋值 ， 并 且 
算术 子 目 标 都 为 真 ” ， 那 么 我 们 能 够 知道 这 个 赋值 的 规则 头 部 是 什么 样 的 。 这 个 结果 元 组 被 放 
人 和 人头 部 关系 之 中 。 

既然 我 们 现在 要 处 理 包 ， 我 们 并 不 排除 头 部 关系 中 元 组 的 重复 现象 。 而 且 ， 当 我 们 考虑 子 
目标 的 所 有 元 组 的 组 合 时 ， 在 一 个 子 目标 的 关系 中 重复 出 现 n 次 的 元 组 被 作为 该 子 目 标 元 组 与 
其 他 子 目 标 元 组 合并 了 n 次 来 考虑 。 

例 10.7 考虑 规则 


H(x,z) + R(x,y) AND SCy,z) 


其 中 关系 R(4,B) 包 括 以 下 元 组 : 
A | B 
1 |2 
t |2 
而 S(B,C) 包 括 元 组 : 
BIC 
2 |3 
4/5 
4/5 


当 第 一 个 子 目标 被 赋值 为 关系 R 中 的 元 组 (1,2)， 生 第 二 个 子 目标 被 赋值 为 关系 S 中 的 元 组 
(2,3) 时 ， 我 们 惟一 一 次 得 到 对 所 有 子 目标 的 一 致 赋值 ( 也 就 是 > 变量 的 赋值 对 每 个 子 目标 都 是 
一 样 的 )。 由 于 (1,2) 在 R 中 出 现 两 次 ，(2,3) 在 S$ 中 出 现 一 次 ， 那么 有 两 种 元 组 赋值 使 得 变量 x=1， 
y=2, z=3。 头 部 的 元 组 (xz,z) 是 两 个 (1.3)。 所 以 元 组 (1.3) 在 头 部 关系 五 中 出 现 两 次 ， 并 且 没 有 其 他 


元 组 出 现 。 也 就 是 说 ， 关 系 
| 
i] 3 
1/3 


就 是 这 个 规则 定义 的 头 部 关系 。 更 普遍 地 ， 若 元 组 (1,2) 在 R 中 出 现 n 次 ， 元 组 (2,3) 在 5 中 出 现 m 
R, 那么 元 组 (1,3) 在 5 中 出 现 nm 次 。 口 


如 果 一 个 关系 由 若干 规则 定义 ， 那 么 结果 是 每 个 规则 生成 的 元 组 的 包 联合 (bag-union )。 


O 注意 规则 中 不 能 有 任何 否定 的 关系 子 目 标 。 对 于 在 包 模式 下 ， 任 意 拥有 否定 关系 子 目 标的 Datalog 规 则 的 含 
义 还 没有 明确 的 定义 。 
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$10.8 考虑 一 个 由 以 下 两 条 规则 定义 的 关系 
H(x,y) + S(x,y) AND x>1 
H(x,y) + S(x,y) AND y<5 
其 中 关系 $(B,C) 和 在 例 10.7 中 一 样 ， 也 就 是 S={(2.3)，(4.5)，(4.5)}。 由 于 8 中 三 个 元 组 的 第 
一 个 组 元 都 大 于 1， 因 此 第 一 条 规则 把 这 三 个 元 组 依次 放 人 瓦 中 。 由 于 (4,5) 不 满足 条 件 y<5， 第 
二 条 规则 只 把 元 组 (2,3) 放 人 已 中 。 这 样 ， 结 果 关 系 互 有 元 组 (2,3) 的 两 个 拷贝 和 元 组 (4,5) 的 两 个 
拷贝 。 口 
10.1.7 习题 


习题 10.1.1 用 Datalog 写 出 练习 5.2.1 的 所 有 查询 。 只 能 使 用 安全 规则 ， 但 可 以 使 用 与 复杂 
关系 代数 表达 式 的 子 表达 式 对 应 的 若干 IDB 谓 词 。 

习题 10.1.2 ”用 Datalog 写 出 练习 5.2.4 的 所 有 查询 。 只 能 使 用 安全 规则 ， 可 以 使 用 若干 IDB 
谓词 。 

习题 10.1.3 ”我 们 对 Datalog 规 则 的 安全 性 要 求 是 充分 保证 : 如 果 关 系 子 目标 的 谓词 是 有 限 
关系 ， 那 么 头 部 谓词 是 一 个 有 限 关 系 。 但 是 这 个 要 求 太 严 格 了 。 给 出 一 个 Datalog 规 则 的 
例子 ,使 其 虽然 违反 这 个 条 件 ， 但 只 要 我 们 将 其 中 关系 谓词 赋值 为 有 限 关系 ， 头 部 关系 就 
始终 是 有 限 的 。 


10.2 从 关系 代数 到 Datalog 


第 5.2 节 中 的 每 个 关系 代数 算 子 都 可 以 由 一 条 或 多 条 Datalog 规 则 模拟 。 在 这 一 节 我 们 依次 
考虑 每 个 算 子 。 我 们 将 考察 如 何 合并 一 些 Datalog 规 则 来 模拟 复杂 代数 表达 式 。 
10.2.1 交 
两 个 关系 的 交集 可 由 以 这 两 个 关系 为 子 目 标 且 对 应 参数 为 同一 变量 的 一 条 规则 来 表示 。 
例 10.9 让 我 们 使 用 关系 R: 
E ”名 | 地 址 | 性别 | 生 日 


123 Maple St., Hollywood | F 9/9/99 
456 Oak Rd., Brentwood M | 8/8/88 








Carrie Fisher 
Mark Hamill 





MAAS: 
姓 名 | 地 址 性 别 | 生 
Garrison Ford | 729 Pain Den, pase 日 T 
作为 例子 ， 它 们 的 交集 由 以 下 Datalog 规 则 计算 出 来 : 
I(n,a, gb) ¢ R(n,a gb) AND S(n,a,g,b) 

这 里 ，? 是 一 个 IPB 谓词 ， 我 们 应 用 上 述 规则 后 它 的 关系 是 RmS。 也 就 是 说 ， 如 果 一 个 元 
组 (mw,a,8,D) 要 使 得 两 个 子 目标 都 为 真 ， 那 么 该 元 组 必须 同时 在 R 和 3 中 。 口 
10.2.2 并 

两 个 关系 的 并 是 由 两 条 规则 建立 。 每 条 规则 都 有 一 个 对 应 于 其 中 一 个 关系 的 原子 作为 它 的 


惟一 子 目 标 ， 并 且 这 两 条 规则 头 部 都 有 同一 IDB 谓 词 。 每 条 规则 头 部 的 参数 都 和 规则 子 目 标的 
参数 完全 一 样 。 
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10.10 为 得 到 例 10.9 中 两 个 关系 R 和 5 的 并 ,我们 使 用 两 个 规则 


1. U(n,a,g,b) + R(n,a,g,b) 
2. U(n,a,g,b) + S(n,a,g,b) 


规则 (1) 表 示 R 中 每 个 元 组 都 是 IDB 关 系 7 中 的 元 组 。 类 似 地 ， 规 则 (2) 表 示 $ 中 每 个 元 组 都 在 
关系 U 中 。 这 样 ， 这 两 个 规则 一 起 上 暗示 在 RUS 中 的 每 个 元 组 都 在 U 中 。 如 果 我 们 不 再 加 入 头 部 
为 0 的 规则 ,那么 其 他 任何 元 组 都 不 能 加 入 关系 UU 中， 这样 我 们 可 以 确认 UU 就 是 RU SS*。 注 意 ， 
与 交 的 建立 只 对 集合 操作 不 同 ， 上 述 规则 对 可 以 对 集合 或 包 进 行 操作 ， 这 取决 于 我 们 怎么 解释 
这 两 条 规则 结果 的 并 。 我 们 在 不 特别 说 明 时 指 的 是 集合 的 并 。 口 
10.2.3 # 

关系 R 和 5 的 差 集 可 通过 一 条 包含 否定 子 目 标的 规则 计算 出 来 。 也 就 是 说 ， 规 则 中 非 否 定 的 
子 目标 含有 谓词 R 而 否定 子 目 标 包 含 谓词 S。 这 些 子 目标 和 头 部 相应 参数 的 变量 都 是 相同 的 。 

例 10.11 如 果 R 和 s 都 是 例 10.9 中 的 关系 ， 那 么 规则 


D(n,a,g,b) — R(n,a,g,b) AND NOT S(n,a,g,b) 


定义 的 DD 就 是 关系 R-5。 口 







变量 对 规则 的 局 部 作用 

注意 我 们 选择 的 规则 中 变量 名 是 任意 的 ， 与 其 他 规则 中 使 用 的 变量 无 关 。 无 关 的 原 
因 是 每 条 规则 都 是 独立 计算 ， 并 且 向 其 头 部 关系 提供 元 组 ， 而 与 其 他 规则 无 关 。 例 如 ， 
我 们 将 例 10.10 中 的 第 二 条 规则 替换 成 
UW, x,y,z) © S(w,x,y,z) 

而 同时 第 一 条 规则 保持 不 变 ， 这 两 条 规则 仍 是 计算 R 和 5 的 并 。 但 需 注 意 ， 如 果 在 一 
条 规则 中 用 一 个 变量 a 代替 另 一 个 变量 bp， 我 们 必须 在 该 规则 中 用 a 芋 换 所 有 出 现 的 bp。 而 
且 ， 我 们 所 选择 的 埋 换 变量 z 不 可 以 是 该 规则 中 己 经 出 现 的 变量 。 


10.2.4 投影 

为 了 计算 关系 R 的 投影 ， 在 我 们 要 使 用 的 规则 中 ， 只 有 一 条 谓词 为 R 的 子 目 标 。 这 个 子 目 
标的 参数 是 不 同 的 变量 ， 每 个 代表 关系 的 一 个 属性 。 规 则 头 部 有 一 个 原子 ， 其 参数 按照 期 望 顺 
序 对 应 于 投影 列表 的 属性 。 

例 10.12 假设 我 们 要 将 关系 

Movie(title, year, length, inColor, studioName, producerC#) 
投影 到 它 的 前 三 个 属性 title、year 和 Length 上 。 规 则 
P(t,y,1) + Movie(t,y,1,c,s,p) 

可 以 满足 要 求 ， 它 定义 了 一 个 名 为 P 的 关系 作为 投影 的 结果 。 口 
10.2.5 选择 


用 Datalog 来 表示 选择 略微 有 些 困难 。 当 选择 条 件 定 为 对 一 个 或 多 个 算术 比较 来 作 AND 操 作 
时 ， 则 是 一 种 比较 简单 的 情况 。 在 这 种 情况 下 ， 我 们 创建 一 条 规则 包含 ; 










O 事实 上 ， 我 们 应 该 假设 在 这 一 节 所 有 例子 中 除了 直接 给 出 的 IDB 谓 词 的 规则 外 没有 其 他 规则 存在 。 如 果 有 
其 他 规则 ， 那 么 我 们 不 能 排除 该 谓词 的 关系 中 存 有 其 他 元 组 。 
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1. 一 个 对 应 于 我 们 要 进行 选择 的 关系 的 子 目标 。 这 个 原子 对 每 个 组 元 有 不 同 变量 ， 它 们 分 


别 对 应 于 关系 的 每 个 属性 。 


2. 对 选择 条 件 中 的 每 个 比较 都 有 一 个 与 该 比较 对 应 的 算术 子 目 标 。 一 旦 在 选择 条 件 中 使 用 
了 一 个 属性 和 名， 我们 就 根据 关系 子 目 标 建 立 的 对 应 关系 ， 在 算术 子 且 标 中 使 用 对 应 的 变量 。 
例 10.13 例 5.4 中 的 选择 
length 100 AND studioName =" Fox’ (Movie) 
可 以 用 Datalog 规 则 重 写 为 
S(t,y,l,c,s,p) 全 Movie(t,y,1,c,s,p) AND 1 100 AND s = ’Fox’ 


其 结果 就 是 关系 S。 注 意 / 和 s 依 照 Movie 属 性 的 标准 次 序 对 应 于 属性 length 和 studio- 
Name, 口 


现在 ， 让 我 们 考虑 那些 包含 对 条 件 进 行 OR 操 作 的 选择 。 我 们 不 能 用 一 条 Datalog 规 则 代替 
这 样 的 选择 。 然 而 ， 两 个 条 件 oR 操 作 的 选择 等 价 于 分 别 按 每 个 条 件 进行 选择 ， 然 后 得 到 结果 
的 并 。 因 此 ，n 个 条 件 的 OR 可 以 用 n 条 规则 表示 ， 每 条 规则 都 定义 同样 的 头 部 谓词 。 第 ;条 规则 
按照 x 个 条 件 中 的 第 个 进行 选择 。 
例 10.14 我 们 对 例 10.13 中 的 选择 进行 修改 ， 把 AND 替 换 成 OR 得 到 如 下 选择 . 
Giength® 100 OR studioName =’ Fox' (Movie) 
也 就 是 找 出 所 有 长 度 至 少 为 100 的 电影 或 Fox 出 产 的 电影 。 我 们 可 以 写 两 条 规则 ， 每 个 对 应 
一 个 条 件 : 
1. S(t,y,1,c,s,p) + Movie(t,y,l,c,s,p) AND 1 > 100 
2. S(t,y,1,¢,8,p) + Movie(t,y,l,c,s,p) AND s = ’Fox? 


规则 (1D 得 出 至 少 有 100 分 钟 长 的 电影 ， 规 则 (2) 得 到 Fox 出 品 的 电影 。 口 


有 的 应 用 中 甚至 还 有 更 为 复杂 的 选择 条 件 ， 它 们 由 逻辑 算 子 AND、oOR 和 NOT 按 照 任意 顺序 
组 成 。 然 而 有 一 种 已 很 普及 的 技术 ， 可 以 将 这 样 的 逻辑 表达 式 重新 整理 成 “ 析 取 范式 ”"， 即 表 
达 式 是 “ 合 取 ”的 析 取 (OR) 。 合 取 是 AND 的 “文字 表示 ”(literal ), “文字 表示 ”是 一 个 比较 
或 否定 比较 。 我 们 在 这 里 不 多 作 介绍 。 

我 们 可 以 用 一 个 子 目标 表示 任 一 “文字 表示 ”， 这 个 子 目 标的 前 面 可 能 有 一 个 NOT。 如 果 


子 目标 是 算术 子 目 标 ， 这 个 NoT 可 以 合并 到 比较 算 子 中 。 例 如 : NOT x 之 100 可 以 写作 x<100。 ， 


那么 任意 合 取 都 可 以 由 一 条 单独 的 Datalog 规 则 表示 ， 一 个 子 目标 对 应 一 个 比较 。 最 后 ， 每 个 
析 取 范式 都 可 写成 若干 Datalog 规 则 ， 一 条 规则 对 应 一 个 合 取 。 这 些 规则 对 每 个 合 取 的 结果 作 
并 操作 或 OR 操作 。 

例 10.15 ”我 们 根据 例 10.14 为 这 个 算法 给 出 一 个 简单 的 例子 。 对 该 例子 中 的 条 件 进 行 否定 
就 得 到 一 个 更 复杂 的 例子 。 我 们 下 面 给 出 表达 式 : 


Onor (length 100 OR siudioName =" Fox’ ) (Movie) 


也 就 是 ， 找 出 所 有 既 不 长 又 不 是 Fox 出 品 的 电影 。 
这 里 , 一 个 Noz 放 在 一 个 并 非 简单 比较 的 表达 式 之 前 。 因 此 ， 我 们 必须 依照 DeMorgan 定 律 ， 
即 oR 的 否定 也 就 是 否定 的 AND， 把 Nor 合 并 到 表达 式 中 。 也 就 是 说 ， 这 个 选择 可 以 被 重 写成 ， 


© 可 参考 A.VAho and J.D.Ullman, Foundations of Computer Science, Computer Science Press, New York, 1992. 
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Ginor (lengh2100)) AND (NOT (studioName =" Fox' » (Movie) 
现在 我 们 可 以 把 NOT 放 在 比较 中 以 得 到 表达 式 
Giengin<100 AND smdiowamez， Fox’ (MOVie) 
这 个 表达 式 可 以 转化 为 Datalog 规 则 
S(t,y,1,¢,s,p) + Movie(t,y,1,c,s,p) AND 1 < 100 AND s # ?Fox’ 
o 


例 10.16 ”让 我 们 考虑 一 个 类 似 的 例子 ， 其 中 的 和 否定 表达 式 中 含有 AND。 现 在 ， 我 们 使 用 
DeMorgan 定 律 的 第 二 形式 ， 即 AND 的 否定 也 就 是 否定 的 OR。 我 们 从 代数 表达 式 
Gor (length 100 AND studioName =’ Fox’ )(Movie) 
开始 ， 也 就 是 ， 找 出 所 有 不 同时 满足 Fox 出 品 且 放 映 时 间 较 长 的 影片 。 
我 们 用 DeMorgan 定 律 把 NOT 放 到 AND 下 ， 得 到 : 


INOT (length > 100)) OR (NOT (studioName =° Fox’ ) (Movie) 


我 们 再 一 次 把 NOT 放 在 比较 中 得 到 : 


Oengih<100 OR studioName#’ Fox’ (Movie) 
最 后 ， 我 们 写 两 条 规则 ， 分 别 对 应 OR 的 两 个 部 分 。 其 结果 Datalog 规 则 是 : 


1. S(t,y,1,c,s,p) + Movie(t,y,1,c,s,p} AND 1 < 100 
2. S(t,y,l,c,s,p) 全 Movie(t,y,1,c,s,p) AND s # ’Fox’ 


口 


10.2.6 积 

两 个 关系 的 积 R x 5 可 以 用 一 条 Datalog 规 则 表示 出 来 。 这 条 规则 有 两 个 子 目 标 ,一 个 对 应 RR， 
一 个 对 应 8。 这 两 个 子 目 标 有 不 同 的 变量 ， 分 别 对 应 R 和 3 的 属性 。 头 部 的 IDB 谓 词 拥 有 在 这 两 
个 子 目标 中 出 现 的 所 有 参数 ， 在 R 的 子 目 标 中 的 变量 列 在 $ 的 子 目标 中 变量 的 前 面 。 

例 10.17 我 们 来 考虑 例 10.9 中 的 两 个 四 属性 的 关系 R 和 5S， 规则 


P(a,b,c,d,w,x,y,2) + Rla,b,c,d) AND S(w,x,y,2) 
定义 了 P 为 Rx 3。 我 们 任意 使 用 字母 表 中 前 面 的 字母 作为 R 的 变量 ， 而 最 后 的 字母 作为 $ 的 变量 。 
这 些 变量 都 出 现在 规则 头 部 。 o 


10.2.7. FER | 
我 们 可 以 用 一 条 近似 于 积 的 Datalog 规 则 来 表示 两 个 关系 的 自然 连接 。 不 同 之 处 在 于 : 如 
果 我 们 想 要 得 到 RoaS， 必 须 小 心地 对 R 和 5 的 同名 属性 使 用 同样 的 变量 ， 不 同名 属性 使 用 不 同 
的 变量 。 例 如 : 我 们 可 以 用 属性 名 来 作为 变量 名 。 规 则 头 部 是 一 个 IDB 谓 词 ， 它 内 部 的 每 个 变 
量 出 现 一 次 。 
例 10.18 考虑 模式 为 RCA,8) 和 S(B,C,D) 的 关系 ， 其 自然 连接 可 以 由 规则 
J(a,b,c,d) ¢ R(a,b) AND S(b,c,d) 


来 定义 。 注 意 子 目 标 中 使 用 的 变量 与 关系 R 和 3$ 的 属性 有 很 明显 的 对 应 关系 。 口 
我 们 还 可 以 把 6- 连 接 转换 成 Datalog。 回 忆 一 下 5.2.10 节 中 8. 连接 是 怎样 表示 为 一 个 积 后 接 


一 个 选择 操作 的 。 如 果 选 择 条 件 是 合 取 ， 也 就 是 比较 的 AND ， 那 么 我 们 可 以 简单 的 从 积 的 
Datalog 规 则 开始 ， 为 每 个 比较 添加 算术 子 目标 。 
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$10.19 ”让 我 们 考虑 例 5.9 中 的 关系 U(4,B,C) 和 V(B,C,D)， 其 中 使 用 了 6G- 连 接 


bq 
U A<D AND U.B#V.B V 


我 们 可 以 建立 Datalog 规 则 
J(a,ub,uc, vb, vc,d) & U(a,ub,uc) AND V(vb,vc,d) AND 
a < d AND ub # vb 
来 进行 同样 的 操作 。 我 们 使 用 ub 作为 对 应 U 的 B 属 性 的 变量 ，ub、uc 和 vc 也 有 类 似 的 含义 ， 
尽管 用 任意 六 个 不 同 的 变量 都 可 以 表示 这 两 个 关系 的 六 个 属性 。 前 两 个 子 目标 引入 了 这 两 个 关 
AR, 后面 两 个 子 目标 则 执行 这 个 6- 连接 的 条 件 中 出 现 的 两 个 比较 。 o 


如 果 这 个 -连接 的 条 件 不 是 合 取 ， 那 么 我 们 则 像 10.2.5 节 中 那样 把 它 转化 成 析 取 范式 。 然 后 
我 们 为 每 个 合 取 建 立 一 条 规则 。 在 规则 中 ， 我 们 从 积 的 子 目 标 开始 ， 为 合 取 中 每 个 文字 添加 一 - 
个 子 目标 。 所 有 规则 的 头 部 是 一 样 的 ， 并 且 每 个 参数 对 应 于 进行 连接 的 两 个 关系 的 每 个 属性 。 

例 10.20 ”在 这 个 例子 中 ， 我 们 将 对 例 10.19 的 代数 表达 式 作 一 个 简单 的 修改 。AND 将 被 改 
成 CR。 这 个 表达 式 中 没有 否定 ， 所 以 它 总 是 析 取 范式 。 其 中 有 两 个 合 取 都 是 文字 表示 单 文字 。 
这 个 表达 式 为 : 


U V 


bd 
A<D OR U.B4V.B 


使 用 与 例 10.19 中 同样 的 变量 名 方法 ， 我 们 得 到 两 条 规则 : 


1. J(a,ub,uc,vb,vc,d) + U(a,ub,uc) AND V(vb,vc,d) ANDa < d 

2. J(Ca,ub,uc,vb,ve,d) + U(a,ub,uc) AND V(vb,vc,d) AND ub Æ vb 

每 条 规则 都 有 对 应 两 个 关系 的 子 目标 以 及 一 个 对 应 于 A<D 和 U.8zV.B 两 个 条 件 之 一 的 子 目 
标 。 O 
10.2.8 用 Datalog 模 拟 多 重 操作 

Datalog 规 则 不 仅仅 可 以 模拟 关系 代数 中 的 单个 操作 。 事 实 上 我 们 可 以 模拟 任何 代数 表达 
式 。 其 技巧 是 观察 关系 代数 表达 式 的 表达 树 并 为 树 的 每 个 内 部 节点 创建 一 个 IDB 谓 词 。IDB 谓 
词 的 一 条 或 多 条 规则 就 是 我 们 需要 在 对 应 节点 上 使 用 的 算 子 。 树 的 扩展 操作 数 ( 它们 是 数据 库 
的 关系 ) 由 对 应 谓词 表示 。 作 为 内 部 节点 的 操作 数 则 由 对 应 的 IPB 谓词 表示 。 

例 10.21 考虑 例 5.10 中 的 代数 表达 式 


Thitte, year (Otength>1000MOVLe)  OstudioName =’ Fox’ (Movie)) 


© title, year 


N 


> N 


5 length >= 100 © studioName = ‘Fox! 


Movie Movie 


图 10-2 表达 树 
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1. W(t,y,1,¢,s,p) ¢ Movie(t,y,l,c,s,p) AND 1 2 100 
2. X(t,y,1,¢,8s,p) € Movie(t,y,l,c,s,p) AND s = ’Fox’ 

3. Y(t,y,1,c,s,p) «+ W(t,y,1,c,s,p) AND X(t,y,1,c¢,s,p) 
4. Z(t,y) + Y(t,y,1,¢,s,p) 


图 10-3 进行 若干 代数 操作 的 Datalog 规 则 


例 5.10 中 的 表达 树 与 图 5-8 相 同 。 我 们 重 画 该 图 为 图 10-2。 该 树 共 有 四 个 内 部 节点 ， 所 以 我 
们 需要 创建 四 个 IPB 谓词 。 每 个 谓词 有 一 条 Datalog 规 则 ， 我 们 在 图 10-3 中 列 出 了 这 些 规 则 。 
最 低 的 两 个 内 部 节点 对 EDB 关 系 Movie 进 行 简单 的 选择 操作 ， 所 以 我 们 可 以 创建 IDB 谓 词 
W 和 X 来 表示 这 些 选择 。 图 10-3 中 的 规则 (1) 和 (2) 描 述 了 这 些 选择 。 例 如 ， 规 则 (了 ) 定 义 W 为 
Movie 中 长 度 至 少 为 100 的 元 组 。 
规则 (3) 按 照 我 们 在 10.2.1 节 中 给 出 的 交 的 规则 形式 ， 定 义 谓词 7 为 W 和 的 交 。 最 后 ， 规 则 
(4) 定 义 谓词 2 为 Y 在 tit1le 和 year 属 性 上 的 投影 。 这 里 我 们 使 用 了 在 10.2.4 节 中 学 过 的 模拟 投 
影 技 术 。 谓 词 Z 是 “答案 ”谓词 ， 即 无 论 关 系 Movie 的 值 是 什么 ，2Z 定 义 的 关系 就 是 我 们 在 这 
个 例子 开始 所 给 出 的 代数 表达 式 的 结果 。 
注意 ， 因 为 ?只 有 一 条 规则 定义 ， 所 以 我 们 可 以 替换 图 10- 3 规则 (4) 中 的 Y 子 目标 ， 将 它 换 成 
规则 (G3) 中 的 主体 。 接 着 ,我 们 可 以 用 规则 (1) 和 (2) 的 主体 替换 W 和 X 子 目标 。 既 然 Movie 
子 自 标 出 现在 W 和 XX 主体 中 ， 我 们 可 以 消去 一 个 拷贝 。 结 果 ，Z 可 以 用 一 个 单独 的 规则 来 定义 : 
Z(t,y) + Movie(t,y,1,¢,s,p) AND 1 = 100 AND s = ’Fox’ . 
然而 ， 一 个 复杂 的 关系 代数 表达 式 只 等 于 一 条 Datalog 规 则 的 情况 并 不 常见 。 口 
10.2.9 习题 
习题 10.2.1 ” 设 R(a,b,c)、S(a,b,c) 和 Tla,b,c) 是 三 个 关系 。 写 出 一 条 或 多 条 Datalog 规 则 ， 分 
别 定 义 出 下 列 关系 代数 表达 式 的 结果 : 
a) RUS. 
b) RNS. 
c) R-S. 
d) (RUS) -T. 
e) (R-S) N(R -T). 
f) Tas (R). 
*! 8) Tap (R) N Pub) (Toe (S)). 
习题 10.2.2 设 R(x,y,z) 为 一 个 关系 。 写 一 条 或 多 条 Datalog 规 则 来 定义 ac(R)， 其 中 C 代 表 下 
列 每 个 条 件 : 
a) x=y. 
* b)x<y AND yx<z. 
c) x<y OR yx<z. 
d) NOT (x<y OR x>y). 
*! e) NOT ((x<yOR x>y) AND y<z). 
! f) NOT ((x<y OR x<z) AND y<z). 
习题 10.2.3 设 R(a,b,c)、S(b,c,d) 和 T(d,e) 为 三 个 关系 。 为 每 个 自然 连接 写 一 条 Datalog 规 则 : 
a) ReaS. 
b) SMT. 





* 


A 


+ 
~ 
O 
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c) (RMS)mT. GER: 既然 自然 连接 是 相关 联 的 和 可 交换 的 ， 这 三 个 关系 的 连接 顺序 
是 无 关 的 。) 

习题 10.2.4 。” 设 R(x,y,z) 和 S(x,y,z) 是 两 个 关系 。 写 出 一 条 或 多 条 Datalog 规 则 来 定义 每 个 9- 
连接 RCS， 这 里 C 是 习题 10.2.2 中 的 一 个 条 件 。 要 求 用 左边 R 的 一 个 属性 和 右边 8 的 一 个 属性 
的 比较 来 解释 每 个 条 件 中 的 算术 比较 。 例 如 : 用 x<y 代 替 R.x<S.y。 
习题 10.2.5 ”将 Datalog 规 则 转化 为 等 价 的 关系 代数 表达 式 也 是 可 行 的 。 当 我 们 还 没有 一 般 
性 的 讨论 到 这 样 做 的 方法 之 前 ， 也 可 以 举 出 一 些 简 单 的 例子 。 对 下 列 每 个 Datalog 规 则 , 
写 出 一 个 关系 代数 表达 式 来 定义 与 该 规则 头 部 相同 的 关系 。 
* a)P(x,y)*-Q(x,z) AND R(z,y) 

b) P(x,y)<-Q(x,z) AND Q(z,y) 

c)P(x,y)+-Q(x,z) AND R(z,y) AND x<y 


10.3 Datalog 的 递归 编程 


虽然 关系 代数 可 以 表示 很 多 关系 上 的 有 效 操作 ， 但 还 是 有 很 多 计算 不 能 够 写成 关系 代数 表 
达 式 。 通 常 ， 我 们 不 能 用 关系 代数 表示 无 限 的 、 通 过 递归 定义 出 的 相似 表达 式 序列 。 

例 10.22 ”一 个 成 功 的 电影 经 常会 有 续集 。 如 果 续 集成 功 的 话 ， 则 续集 还 会 有 续集 ， 不 断 
重复 。 于 是 ， 一 部 电影 可 能 是 另 一 部 电影 的 远 祖 。 假 设 我 们 有 一 个 关系 Seauelof (movie, 
sequel) 包含 一 部 影片 和 紧 接 着 它 的 续集 的 配对 。 这 个 关系 中 元 组 的 例子 为 : 


movie sequel 
Naked Gun Naked Gun 21/2 


Naked Gun 21/2 | Naked Gun 331/3 


我 们 可 能 对 电影 后 续 有 着 一 个 更 全 面 的 理解 : 即 续集 、 续 集 的 续集 ， 依 次 递 推 。 在 上 述 的 
RAH, Naked Gun 33, Naked Gun 的 一 个 后 续 ,但 不 是 我 们 在 这 儿 使 用 的 严格 意义 上 的 续 
集 。 如 果 我 们 在 关系 中 只 存放 紧 靠 的 续集 ， 在 需要 时 再 建立 后 续 ， 这 样 可 以 节约 空间 。 在 上 面 
的 例子 中 ， 我 们 只 少 存储 了 一 个 配对 ， 但 对 五 集 的 电影 Rocky 我 们 可 以 少 存 六 个 配对 ， 对 18 集 
电影 Friday the 13 圾 我 们 则 少 存 了 136 个 配对 。 

然而 ， 怎 样 从 关系 Seque10f 建 立 后 续 的 关系 却 不 是 立刻 就 能 明白 的 。 我 们 可 以 把 
Seque10f 中 的 元 组 依次 连接 得 到 续集 的 续集 。 关 系 代数 中 这 种 表达 式 的 一 个 例子 如 下 ， 它 用 
重 命名 使 连接 成 为 自然 连接 : 


Mirst. ihird (OR(first, second) (Seque lof) D< PSisecond,third) (SequelOf)) 


在 这 个 表达 式 中 ，8sequelof 被 重 命 名 两 次 ， 一 次 将 其 属性 叫做 fizxst 和 secona， 第 二 
次 则 被 叫做 secona 和 third。 这 样 ， 自 然 连 接 在 Seauel0f 中 寻找 满足 me=ms 的 元 组 (mso) 
和 (m3,m4)。 于 是 我 们 得 到 配对 (m1,m)， 注意 mm 是 mi 的 续集 的 续集 。 

同样 地 ， 我 们 可 以 对 三 个 seque1l0f 作 自然 连接 得 到 续集 的 续集 的 续集 ( 例如 Rocky 和 
Rocky IV ) 事实 上 我 们 可 以 对 任意 固定 的 ; 值 , 通过 对 Seque1l0f 自身 连接 i-1 次 得 到 第 ;个 续集 。 
然后 我 们 可 以 对 seque10f 和 这 些 连 接 的 有 限 序列 进行 并 操作 得 到 在 某 个 固定 限制 之 内 的 所 有 
续集 。 

在 关系 代数 中 ， 当 i = 1,2,.… 时 ,第 ;个 续集 的 表达 式 组 成 的 无 限 序列 无 法 进行 “无 限 并 ” 操 
Wo TER, 关系 代数 的 并 只 允许 我 们 进行 两 个 关系 的 并 操作 ， 而 不 是 无 限 个 关系 。 通 过 在 关系 
表达 式 中 进行 任意 有 限 次 的 并 操作 ， 我 们 可 以 得 到 任意 有 限 个 关系 的 并 ， 但 我 们 不 能 在 关系 表 


ERS ES 


达 式 中 得 到 无 限 个 关系 的 并 。 


10.3.1 递归 规则 


309 
通过 在 规则 的 头 部 和 体 部 使 用 IDB 谓 词 ， 我 们 可 以 用 Datalog 表 示 一 个 无 限 并 。 我 们 还 是 先 


口 
定 关系 的 ， 所 以 计算 递归 规则 需要 一 个 新 的 规则 计算 方法 。 


来 看 一 些 怎样 在 Datalog 中 表示 递归 的 例子 。 在 10.3.2 节 中 我 们 要 检验 对 这 些 规 则 的 IDB 谓 词 关 
系 的 最 小 不 动 点 计算 。 因 为 在 10.1.4 节 中 的 直接 规则 计算 方法 假设 所 有 规则 体 部 的 谓词 是 有 固 
例 10.23 我 们 可 以 用 下 列 两 个 Datalog 规 则 定义 IDB 关 系 Fol11owOn: 
1. Follow0n(x,y) +- SequelDf (x,y) 

2. FollowOn(x,y) 人 SequelDf(x,z) AND Follow0n(z,y) 
那么 y 则 是 x 的 一 个 后 续 。 


第 一 个 规则 是 基础 ， 它 告诉 我 们 每 个 续集 都 是 一 个 后 续 ; 第 二 个 规则 是 说 电影 xz 的 一 个 续 
集 的 每 个 后 续 也 是 x 的 后 续 。 更 确切 地 说 : 如 果 z 是 x 的 一 个 续集 , 并 且 我 们 发 现 y 是 z 的 一 个 后 续 ， 
10.3.2 计算 递归 Datalog 规 则 


口 
则 时 ， 我 们 才能 判定 一 个 元 组 是 在 一 个 IDB 关 系 中 。 于 是 ， 我 们 : 


为 了 计算 递归 Datalog 规 则 的 IPB 谓词 ， 我 们 依照 的 原则 是 : 只 有 像 10.1.4 节 中 那样 应 用 规 
1. 开始 即 假 设 所 有 IDB 谓 词 都 有 空 关 系 。 


2. 执行 一 定数 量 的 循环 ， 在 循环 中 为 IDB 谓 词 逐 渐 建 立 更 大 的 关系 。 在 规则 的 部 分 使 用 在 
前 面 的 循环 中 建立 的 IDB 关 系 。 应 用 这 些 规则 重新 判定 所 有 IDB 谓 词 。 


人 
foe] 
ma 


3. 如 果 规 则 是 安全 的 ， 任 何 IDB 元 组 的 组 元 值 都 会 在 某 个 EDB 关 系 中 出 现 。 因 此 ， 所 有 

IDB 关 系 都 有 一 定数 目的 可 能 关联 到 的 元 组 ， 这 些 元 组 最 后 会 形成 一 个 循环 ， 其 中 不 再 为 任何 

IDB 关 系 加 入 新 元 组 。 这 时 我 们 可 以 结束 计算 得 到 结果 一 一 已 经 不 会 再 产生 新 的 IDB 元 组 了 。 
这 个 IDB 元 组 的 集合 称 为 规则 的 最 小 不 动 点 。 

动 点 的 计算 


例 10.24 当 关系 Sequelof 由 如 下 三 个 元 组 组 成 时 ， 让 我 们 给 出 对 关系 Fol lowon 最 小 不 
movie sequel 
Rocky Rocky II 
Rocky II | Rocky III 
Rocky III | Rocky IV - 
在 计算 的 第 一 个 循环 中 ， 假 设 Followon 为 空 。 这 样 ， 规 则 (2) 不 会 生成 任何 Followon 元 
组 。 然 而 ， 规 则 (1) 表明 每 个 sequelof 元 组 都 是 一 个 FolLlowon 元 组 。 因 此 在 第 一 个 循环 结束 
后 ，Fol1lowon 的 值 等 同 于 上 面 列 出 的 Seque10f 关 系 ， 在 第 一 循环 后 的 情况 如 图 10-4(a) 所 示 。 
在 第 二 个 循环 中 ,我 们 以 图 10-4(a) 所 示 关 系 作为 Fol11lowon， 并 对 这 个 关系 和 给 定 的 
Seque1l0f 关 系 使 用 这 两 个 规则 。 第 一 个 规则 给 出 我 们 已 经 得 到 了 的 三 个 元 组 ， 很 明显 ， 事 实 
上 规则 (1) 不 可 能 为 Fol11owon 产 生 任 何不 同 于 这 三 个 元 组 的 元 组 。 对 于 规则 (2)， 我 们 从 


Seque10f 中 寻找 一 个 元 组 , 它 的 第 二 个 组 元 与 Fol11owon 的 某 个 元 组 的 第 一 个 组 元 相同 。 
因此 ， 我 们 可 以 从 segquelof 中 取得 元 组 (Rocky, Rocky II)， 并 将 它 与 Followon 的 
样 地 ， 我 们 可 以 从 seque10f 取 出 元 组 


元 组 (RockyII, Rocky III) 配 对 并 为 FollowOn 得 到 一 个 新 元 组 (Rocky, RockyIII). W 
(Rocky II,Rocky III) 
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并 从 Followon 取 出 元 组 (RockyIII, RockyIV)， 从 而 为 Fol1owOn 得 到 新 元 组 
(RockyII, RockyIV)。 然 而 ， 没 有 其 他 的 从 Seque10f 和 Followon 中 取出 的 元 组 配对 可 以 作 
连接 了 。 这 样 ， 在 第 二 个 循环 结束 后 ，Fol1owon 有 如 图 10-4(b) 所 示 的 五 个 元 组 。 直 观 上 ， 人 象 图 
10-4(a) 包 括 那些 基于 一 个 续集 的 后 续 那 样 ， 图 10-4(b) 包 含 了 那些 基于 一 个 或 两 个 续集 的 后 续 。 

在 第 三 个 循环 中 ， 我 们 以 图 10-4(b) 中 的 关系 作为 Fol Ilowon 再 一 次 利用 规则 (2) 进 行 计算 ， 
就 得 到 了 所 有 以 前 得 到 过 的 元 组 ， 当 然 ， 又 多 了 一 个 元 组 。 当 我 们 连接 sequelof 的 元 组 
(Rocky, RockyII) 和 Followon 当 前 值 中 的 元 组 (RockyII,RockyIV) 时 ， 会 得 到 一 个 新 
元 组 (Rocky, RockyIV) 。 这 样 ， 在 第 三 个 循环 结束 后 ，Fol1lowon 的 值 如 图 10-4(c) 所 示 。 

当 我 们 继续 进入 第 四 个 循环 时 ， 没 有 得 到 新 的 元 组 ， 于 是 我 们 停止 计算 。 正 确 的 关系 
Fol1lowOEn 如 图 10-4(c) 所 示 。 口 

z |y 
Rocky Rocky II 


Rocky II Rocky „IH 
Rocky III |. Rocky IV 





(a) 循环 1 结束 后 Fol1owon 的 值 


z |y 

Rocky Rocky II 
Rocky II Rocky III 
Rocky III | Rocky IV 
Rocky Rocky III 
Rocky II Rocky IV 








(b) 循环 2 结束 后 Fol1owon 的 值 





so ly 
Rocky Rocky II 


Rocky II Rocky III 
Rocky III | Rocky IV 


Rocky Rocky III 
Rocky II Rocky IV 
Rocky Rocky IV 


(c) 循环 3 结束 及 以 后 得 到 的 Fol lowon 正 确 值 
图 10-4 关系 Followon 的 递归 计算 
一 个 可 以 简化 所 有 递归 Datalog 计 算 的 重要 技巧 是 : 


“在 任何 循环 中 ， 向 任何 IDB 关 系 中 加 入 的 新 元 组 只 能 通过 应 用 这 样 的 规则 得 到 : 规则 中 
至 少 有 一 个 IDB 子 目标 与 一 个 元 组 相 匹配 ， 而 匹配 的 元 组 是 在 前 面 的 循环 中 加 入 关系 的 。 


递归 的 其 他 形式 
在 例 10.23 中 我 们 使 用 右 递归 形 式 形成 递归 ， 它 的 递归 关 系 FollowOn 出 现在 EDB 关 系 
Seque10f 的 后 面 。 我 们 也 可 以 用 类 似 的 左 递归 规则 ， 把 递归 关系 放 在 前 面 ， 这 些 规则 是 


l. FollowOn(x,y) + Sequel0f (x,y) 
2. FollowOn(x,y) + Follow0n(x,z) AND Sequel0f (z,y) 





简略 地 说 ，y 是 x 的 一 个 后 续 ， 当 且 仅 当 它 是 x 的 续集 或 x 的 后 续 的 续集 。 
我 们 甚至 可 以 使 用 两 次 递归 关系 ， 就 像 非 线 性 递归 ，; 


1. FollowDn(x,y) ¢ Sequel0f (x,y) 
2. FollowOn(x,y) ¢ FollowOn(x,z) AND FollowOn(z,y) 


简略 地 说 ，y 是 x 的 一 个 后 续 ， 当 且 仅 当 它 是 x 的 续集 或 x 的 后 续 的 后 续 。 这 三 种 形式 都 向 
关系 FollowOn 给 出 同样 的 配对 (x,y): 使 得 y 是 x 的 续集 的 续集 的 续集 (重复 若干 次 ) … 





对 这 个 规则 的 证 明 是 : 假设 所 有 子 目 标 被 匹配 到 “ 旧 ” 元 组 上 ， 头 部 的 元 组 应 该 在 前 面 的 
循环 中 就 已 经 加 和 人 了。 下 面 的 两 个 例子 对 这 个 策略 进行 说 明 并 且 向 我 们 展示 更 为 复杂 的 递归 的 
例子 。 

例 10.25 在 图 的 路 径 研 究 中 有 许多 使 用 递归 的 例子 。 图 10-5 给 出 了 一 张 图 ， 上 面 标识 出 
两 家 假定 的 航空 公司 在 旧 金 出、 丹佛 、 达 拉 斯 、 世 加 哥 和 纽约 之 间 的 航班 ， 这 两 家 公司 的 名 称 
分 别 为 Untried Airlines(UA) 公 司 和 Arcane Airlines(AA) 公 司 。 


AA 1900-2200 
UA 1830-2130 







UA 1500-1800 










UA 930-1230 


© AA 1500-1930 
AA 900-1430 


图 10-5 航空 公司 的 航班 图 
我 们 可 以 想像 用 一 个 EDB 关 系 表示 这 些 航 班 : 


Flights(airline, from, to, departs, arrives) 
图 10-6 给 出 了 从 图 10-5 中 得 出 的 关系 的 元 组 。 


airline | from | to departs | arrives 
UA 
AA 
UA 
UA 
AA 
AA 
AA 
UA 











图 10-6 关系 Flights 中 的 元 组 


我 们 可 以 提出 的 最 简单 的 递归 问题 是 ;“ 满 足 条 件 的 (x,y) 有 哪些 ? x, y 代 表 的 意义 是 : Fe 
坐 一 架 或 多 架 班 机 从 城市 x 到 达 城 市 y。” 下 面 两 条 规则 描述 了 一 个 恰好 包含 这 些 城市 配对 的 关 
系 Reaches (x,y)。 


1. Reaches(x,y) + Flights(a,x,y,d,r) 
2. Reaches(x,y) ¢ Reaches(x,z) AND Reaches (z,y) 


第 一 个 规则 表示 Reaches 包 含 这 样 的 城市 配对 : 有 一 趟 直接 从 第 一 个 城市 通 向 第 二 个 城 





> 
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市 的 航班 。 航 空 公司 a 与 规则 中 的 出 发 时 间 & 和 和 到达 时 间 x 是 任意 的 。 第 二 个 规则 表示 如 果 你 可 
以 从 城市 xz 到 城市 zx， 又 可 以 从 城市 z 到 城市 ?， 那 么 你 就 可 以 从 zx 到 y。 注意 我 们 这 里 使 用 了 递归 
的 非 线性 形式 ， 就 像 我 们 在 上 文 “ 递 归 的 其 他 形式 ” 框 中 描述 的 那样 。 在 这 里 使 用 这 个 形式 更 
为 方便 ， 因 为 Fl1ights 在 递 妇 规则 中 的 其 他 地 方 出 现时 会 为 没有 用 到 的 Filghts 组 元 多 引入 
三 个 变量 。 

我 们 按照 例 10.24 中 介绍 的 迭代 过 程 计算 关 系 Reaches。 开 始 我 们 用 规则 (1) 得 到 在 
Reaches 中 的 以 下 配对 : (SF,DEN) 、(SF,DAL)、(DEN,CHI)、(DEN,DAL) 、(DAL,CHI)、 
(DAL,NY) 和 (CHINY) 。 这 些 就 是 在 图 10-5 中 用 边 表示 的 七 个 配对 。 

在 下 一 个 循环 中 ， 我 们 使 用 递归 规则 (2) 来 对 边 进行 配对 ， 使 得 一 条 边 的 头 是 另 一 边 的 尾 。 
这 样 我 们 就 得 到 增加 的 配对 (SF,CHI) (DEN,NY) 和 (SF,NY) 。 第 三 个 循环 对 所 有 一 条 或 两 条 
边 的 配对 进行 组 合 , 形成 最 长 包含 四 条 边 的 路 径 。 在 这 个 特定 的 图 中 , 我 们 没有 得 到 新 的 配对 。 
这 样 Reaches 由 十 个 配对 (x,y) 组 成 ， 表 示 在 图 10-5 中 由 x 可 以 到 达 y。 在 图 10-5 里 ， 配 对 (x， aa 
的 y 在 x 的 右边 。 


例 10.26 ”一 个 更 为 复杂 的 限定 情况 是 : 什么 时 候 可 以 把 两 个 航班 合并 到 一 个 更 长 的 航班 
序列 ， 其 要 求 是 第 二 航班 离开 机 场 的 时 间 至 少 比 第 一 航班 抵达 机 场 的 时 间 晚 一 个 小 时 。 这 里 ， 
我 们 使 用 一 个 称 为 Connects (x,y,d,r) 的 IDB 谓 词 ， 它 表示 我 们 可 以 乘坐 一 个 或 多 个 航班 ， 
在 4 时 刻 从 城市 x 出 发 ， 在 x 时 刻 抵达 城市 y>。 如 果 中 间 有 连接 ， 那 么 连接 至 少 需要 一 个 小 时 。 

Connects 的 规则 如 下 9: 


1. Connects(x,y,d,r) ¢ Flights(a,x,y,d,r) 

2. Connects(x,y,d,r) <+ Connects(x,z,d,t1) AND 
Connects(z,y,t2,r) AND 
ti <= t2 - 100 


在 第 一 个 循环 中 ， 规 则 (1) 给 我 们 八 个 连接 ， 即 图 10-7 中 第 一 条 横向 分 隔 线 以 上 的 连接 ( 这 
条 横向 分 隔 线 不 是 关系 的 一 部 分 ) 每 个 连接 对 应 图 10-5 中 的 一 趟 航班 。 注 意 ， 该 图 中 七 条 边 
中 的 一 条 代表 不 同时 间 的 两 趟 航班 。 

我 们 现在 尝试 用 规则 (2) 来 合并 这 些 元 组 。 例 如 ， 这 些 元 组 的 第 二 和 第 五 个 合并 成 为 元 组 
(SF, CHI, 900,1730)。 然 而 ， 第 二 和 第 六 元 组 不 能 合并 ， 因 为 到 达拉斯 的 抵达 时 间 是 1430， 
而 从 达拉斯 出 发 时 间 是 1500， 只 多 了 半 个 小 时 。connects 关 系 在 第 二 个 循环 结束 后 由 图 
10-7 中 的 第 一 和 第 二 条 横向 分 隔 线 以 上 的 所 有 元 组 组 成 。 从 循环 1 得 到 的 初始 元 组 在 第 一 条 横 
向 分 隔 线 之 上 ， 在 循环 2 中 添加 的 六 个 元 组 位 于 第 一 和 第 二 条 横向 分 隔 线 之 间 。 

在 第 三 个 循环 中 ,我 们 主要 考虑 将 图 10-7 的 第 一 和 第 二 条 横向 分 隔 线 之 上 元 组 的 所 有 配对 
作为 规则 (2) 主 体 部 分 的 两 个 connects 元 组 的 候选 者 。 然 而 ， 如 果 两 个 元 组 都 是 在 第 一 条 横向 
分 隔 线 以 上 ， 那 么 它们 在 第 二 个 循环 中 就 已 经 被 考虑 过 了 ， 因 此 不 会 产生 一 个 我 们 没有 见 过 的 
Connects 元 组 。 得 到 一 个 新 元 组 的 惟一 方法 是 在 规则 (2) 使 用 的 两 个 connects 元 组 中 至 少 有 
一 个 是 在 前 一 循环 中 加 入 的 ， 即 它 在 图 10-7 的 两 条 横向 分 隔 线 之 间 。 

第 三 个 循环 只 给 我 们 三 个 新 元 组 ， 位 于 图 10-7 的 底部 。 在 第 四 循环 中 没有 新 元 组 加 入 ， 所 
以 我 们 的 计算 结束 。 这 样 ， 完 整 的 关系 Connects 如 图 10-7 所 示 。 





口 


@ 这些 规则 仅 服从 这 样 的 假设 : 连接 会 发 生 在 午夜 。 





图 10-7 在 第 三 循环 之 后 的 关系 Connects 














10.3.3 递归 规则 中 的 非 

有 时 ， 我 们 需要 在 递归 规则 中 使 用 “ 非 ” 操 作 。 将 递归 和 非 进行 混合 的 方法 有 两 种 ， 一 种 
安全 ， 一 种 不 安全 。 一 般 来 说 ， 只 有 在 不 动 点 操作 中 不 出 现 否 定 的 情况 下 ， 使 用 否定 才 是 合适 
的 。 为 了 观察 它们 的 不 同 ， 我 们 要 考虑 递归 和 非 的 两 个 例子 ， 一 个 是 恰当 的 而 另 一 个 是 自 相 矛 
盾 的 。 我 们 会 看 到 当 有 递归 时 ， 只 有 “分 层 的 ” 非 是 有 用 的 ; 关于 术语 “分 层 的 ”， 我 们 会 在 
例子 之 后 作出 确切 的 定义 。 

例 10.27 ”假设 我 们 要 在 图 10-5 中 找 出 城市 的 配对 (x,y)， 使 得 UA 可 以 从 x 飞 到 y ( 也 许 要 经 
过 茶 些 其 他 城市 )， 但 AA 却 不 可 以 。 我 们 可 以 像 例 10.25 中 定义 Reaches 那 样 递归 定义 一 个 谓 
词 UAreaches， 但 仅 针 对 UA 航班 ， 如 下 所 示 : 


1. UAreaches (x,y) + Flights(UA,x,y,d,r) 
2. UAreaches(x,y) + UAreaches(x,z) AND UAreaches(z,y) 


类 似 地 ， 我 们 可 以 递归 定义 谓词 AAreaches 为 城市 配对 Ccy)， 使 得 人 们 可 以 只 坐 AA 的 航 
班 从 x 到 y， 定 义 如 下 : 


1. AAreaches(x,y) + Flights (AA,x,y,d,r) 
2. AAreaches(x,y) 人 AAreaches(x,z) AND AAreaches(z,y) 


现在 ,计算 uAon1ly 谓 词 ， 即 计算 人 们 可 以 坐 UA 航 班 而 不 坐 AA 航 班 可 从 x 到 y 的 城市 配对 
(x.y) 的 集合 。 有 了 如 下 的 非 递归 规则 ， 计 算 就 是 一 件 简单 的 事情 了 。 


- UAonly(x,y) «+ UAreaches(x,y) AND NOT AAreaches (x,y) 


这 条 规则 计算 UAreaches 和 AAreaches 两 集合 的 差 。 : 

对 图 10-5 中 的 数据 ，UAreaches 包 括 下 列 配对 : (SF, DEN), (SF, DAL), (SP, CHT). 
(SF, NY), (DEN, DAL) 、(DEN, CHI) 、(DEN,NY) 和 (CHI,NY) 。 这 个 集合 是 由 10.3.2 节 中 给 
出 的 迁 代 不 动 点 过 程 计算 出 来 的 。 类 做 地 ， 我 们 可 以 计算 Aareaches 的 值 为 以 下 数据 ，( SF， 
DAL). (SF, CHI), (SF, NY), (DAL, CHI), (DAL, NY) 和 (CHI, NY) 。 当 我 们 计算 这 些 配 
对 集合 的 差 时 我 们 得 到 : (SF, DEN), (DEN, DAL), (DEN, CHI) 和 (DEN, NY} 。 这 个 四 个 配 
对 的 集合 就 是 关系 UAon1y。 O 





A 
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$10.28 现在， 让 我 们 考虑 一 个 抽象 的 反面 例子 。 假 设 : EDB 谓 词 R 是 一 元 关系 《一 个 参 

数 )， 并 且 它 只 有 一 个 元 组 (0)。 另 外 两 个 IDB 谓 词 P 和 2@C 也 是 一 元 关系 ， 它 们 由 两 个 规则 定义 : 
1. P(x) + R(x) AND NOT Q(x) 
2. Q(x) © R(x) AND NOT P(x) 

简 言 之 ， 这 两 个 规则 告诉 我 们 : R 中 的 一 个 元 素 x 要 么 在 P 中 ， 要么 在 0 中 ， 但 不 会 同时 在 
两 者 中 。 注 意 P 和 0 在 递归 定义 中 互相 关联 。 

当 我 们 在 10.3.2 节 定义 递归 关系 的 含义 时 ， 曾 经 说 我 们 需要 最 小 不 动 点 ， 也 就 是 最 小 的 
IDB 关 系 ， 关 系 中 包含 了 规则 要 求 我 们 承认 的 所 有 元 组 。 规 则 (1) 是 生成 P 的 惟一 规则 ， 作 为 关 
系 ，P=R-Q; 同样 ,规则 (2) 定 义 Q=R-P。 由 于 R 仅 包含 元 组 (0)， 这 个 仅 有 的 (0) 可 以 在 P 或 中 。 
但 (0) 在 哪里 ? 它 不 可 能 不 在 P 和 C 中 ， 因 为 这 将 使 等 式 不 满足 。 例 如 ，P=R-O 意 味 着 时 {(0)}- 
D, RERA. 

如 果 我 们 让 P={(0)}，2 = #， 那 么 我 们 得 到 两 个 等 式 的 解法 。P=R-Q 成 为 {(0)}={(0)}-9， 
这 是 对 的 ，C=R-P 成 为 g= {(0)}-{(0)}， 这 也 是 对 的 。 

然而 ， 我们 还 可 以 让 P=p，Q = {(0)}。 这 个 选择 也 满足 这 两 条 规则 。 于 是 我 们 有 两 个 解 : 

a) P = {(0)} O=¢ 
b) P=p Q={(0)} 

两 者 都 是 最 小 的 ， 因 为 如 果 我 们 从 任意 关系 中 取出 任意 元 组 ， 结 果 关 系 就 都 不 再 满足 这 两 
条 规则 。 因 此 ， 我 们 不 能 在 这 两 个 最 小 不 动 点 (aj 和 (b) 中 作 决 定 ， 我 们 也 就 不 能 回答 “P(O) 是 否 
为 真 ? ”这 样 简单 的 问题 。 口 


在 例 10.28 中 我 们 发 现 ， 当 递归 和 非 太 过 紧密 地 缠绕 在 一 起 时 ， 我 们 定义 递归 规则 为 最 小 不 
动 点 的 思路 已 不 再 适合 。 可 能 有 一 个 以 上 的 最 小 不 动 点 ， 这 些 不 动 点 可 以 互相 了 矛盾。 如 果 有 其 
他 更 合适 的 方法 来 定义 递归 非 当然 更 好 。 然 而 不 妙 的 是 ， 目 前 还 未 就 此 达成 广泛 一 致 的 意见 。 

因此 ， 我 们 习惯 于 将 递归 限制 在 分 层 的 非 中 。 例 如 ， 在 10.4 节 中 讨论 的 递归 的 SQL-99 标 准 
就 作 了 这 样 的 限制 。 我 们 看 到 ， 当 非 是 “分 层 的 ”时 ， 有 一 种 算法 可 以 计算 一 个 特定 的 、 直 观 
上 与 我 们 关于 规则 的 含义 相符 合 的 最 小 不 动 点 ( 也许 是 出 自 于 很 多 个 这 样 的 不 动 点 之 中 )。 我 
们 定义 分 层 非 的 属性 如 下 : 

1. 曾 一 张 图， 其 中 节点 对 应 IDB 谓 词 。 

2. 如 果 一 个 规则 的 头 部 有 谓词 4， 并 且 有 一 个 谓词 3 的 否定 子 目标 ， 那 么 从 节点 4 画 一 条 边 
到 节点 8B。 为 这 条 边 作 一 个 标记 “ - ”， 表 示 它 是 一 个 否定 的 边 。 

3. 如 果 一 个 规则 的 头 部 有 谓词 4 ， 并 且 有 一 个 谓词 B 的 非 否定 子 目 标 ， 那 么 从 节点 4 画 一 条 
边 到 节点 8。 这 条 边 不 用 减 号 作 标 记 。 

如 果 这 张 图 有 一 个 环 包括 一 个 或 多 个 否定 的 边 ， 那 么 这 个 递归 则 不 是 分 层 的 。 否 则 ， 这 个 
递归 是 分 层 的 。 我 们 可 以 把 一 张 分 层 图 中 的 IDB 谓 词 划 分 为 阶 屋 。 一 个 谓词 4 的 阶层 值 是 从 4 开 
始 的 一 条 路 径 上 的 否定 边 的 最 大 数量 。 

如 果 递 归 是 分 层 的 ， 那 么 我 们 可 以 依照 分 层 顺 序 来 计算 IDB 谓 词 ， 阶 层 最 低 的 优先 计算 。 
运用 这 种 方法 产生 了 规则 的 一 个 最 小 不 动 点 。 更 重要 的 是 ,依照 IDB 谓 词 的 层次 顺序 来 计算 这 
些 谓词 总 是 有 意义 的 并 且 使 我 们 得 到 “正确 的 ”不 动 点 。 相 反 ， 我 们 在 例 10.28 中 已 经 看 到 ， 
不 分 层 的 递归 可 能 导致 根 本 没有 “正确 的 ”不 动 点 ， 尽 管 可 能 有 很 多 不 动 点 可 以 选择 。 

例 10.29 ” 例 10.27 中 谓词 的 图 如 图 10-8 所 示 。 因 为 以 自身 为 起 始点 的 路 径 没有 一 条 包含 否 
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定 的 边 ， 所 以 AAreaches 和 URAreaches 是 在 阶层 0。UAonly 为 阶层 1， 因 为 有 一 条 包含 否定 
边 的 路 径 从 它 开 始 ， 但 这 样 的 路 径 只 有 一 条 。 因 此 ， 我 们 必须 在 开始 计算 UAon1ly 之 前 完成 
AAreaches 和 UAreaches 的 计算 。 

比较 一 下 我 们 为 例 10.28 中 的 IDB 谓 词 构 造 图 的 情况 ， 如 图 10-9 所 示 。 由 于 规则 (1) 有 头 部 P 
和 否定 子 目 标 O， 因 此 有 一 条 否定 边 从 P 到 8。 由 于 规则 (2) 有 头 部 QO 和 否定 子 目标 P， 因 此 也 有 
一 条 相反 方向 的 否定 边 。 这 样 就 有 了 一 个 否定 环 ， 这 两 条 规则 不 是 分 层 的 。 


UAonly 


nmw. 


P Q 
e meaane) xo 
图 10-8 从 一 个 分 层 递归 建立 的 图 图 10-9 由 一 个 非 分 层 递归 构造 的 图 


口 


10.3.4 习题 
习题 10.3.1 如 果 我 们 添加 或 删除 图 10-5 中 的 边 , 可 能 会 改变 例 10.25 中 关系 Reaches 的 值 、 
例 10.26 中 关系 Connects 的 值 或 例 10.27 中 关系 UAreaches 和 AAreaches 的 值 。 如 果 我 
们 作出 如 下 增 、 删 改动 ， 试 重新 给 出 这 些 关系 的 值 。 
* a) 添加 一 条 边 从 CHI 到 SF， 标 记 为 AA，1900-2100。 
b) 添加 一 条 边 从 NY 到 DEN， 标 记 为 UA，900-1100。 
c) 按 (a) 和 (b) 所 示 添 加 两 条 边 。 
d) 删除 从 DEN 到 DAL 的 边 。 
习题 10.3.2 ”针对 例 10.22 中 概念 “后 续 ” 所 作 的 下 列 修改 ， 写 出 Datalog 规 则 ( 如 果 必 须 
用 非 ， 使 用 分 层 非 ) 来 描述 。 可 以 使 用 例 10.23 中 定义 的 EDB 关 系 Seque10f 和 IDB 关 系 
Follow0On, 
* a)P{x,y) 表 示 电 影 y 是 电影 x 的 一 个 后 续 ， 但 不 是 x 的 一 个 续集 (就 像 EDB 关 系 
Seque10f 所 定义 的 那样 ) 
b) Q(x, y) 表示 y 是 x 的 一 个 后 续 ， 但 既 不 是 一 个 续集 也 不 是 续集 的 续集 。 
! c) R (x) 表示 电影 x 有 至 少 两 个 后 续 。 注 意 这 两 个 后 续 可 以 都 是 续集 ， 而 不 仅 是 -一 个 为 
续集 而 另 一 个 为 续集 的 续集 。 
!! d) Ss (x,y) 表示 y 是 x 的 一 个 后 续 且 y 最 多 只 有 一 个 后 续 。 
习题 10.3.3 ODL 类 和 它们 之 间 的 关系 可 以 由 关系 Rel (class, rclass,mult) 来 描述 。 
这 里 ， 对 一 个 多 值 关系 mult 值 是 nulti ， 而 对 一 个 单 值 关系 mult 值 则 是 single。 前 两 
个 属性 是 相关 的 类 : 从 class 到 rclass (相关 类 )。 例 如 ， 关 系 Rel 代 表 图 4-3 中 正在 播 
放 的 电影 例子 中 的 三 个 ODL 类 ， 如 图 10-10 所 示 。 


class relass mult 








Star 

Movie multi 
Movie single 
Studio multi 


图 10-10 用 关系 数据 表示 ODL 关 系 


A 
pej 
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我 们 也 可 以 用 一 张 图 来 表示 这 些 数据 ， 其 中 节点 代 multi ine 
表 类 ， 而 边 从 一 个 类 到 一 个 相关 类 ， 相 应 的 标记 为 人 
multi 或 single。 图 10-11 是 根据 图 10-10 中 的 数据 > 一 ~ 一 
描绘 得 来 。 multi ， multi 

写 出 Datalog 规 则 来 表达 下 列 谓词 ， 如 果 必 须 用 图 10-11 用 图 表示 关系 


非 就 使 用 分 层 非 。 你 可 以 把 Rel 作 为 一 个 EDB 关 系 来 使 用 。 对 图 10-10 的 数据 ， 按 照 循环 
步骤 为 你 的 规则 计算 出 结果 。 
a) 谓词 P (class,eclass), 它 表示 在 类 的 图 中 有 一 条 路 径 从 class 到 eclass9。 
第 二 个 类 可 以 看 做 是 “嵌入 ”在 class 中 ， 因 为 它 在 某 种 意义 上 是 第 一 个 类 对 象 的 
部 分 的 部 分 的 部 分 …… 
*! b) 谓词 S (class,eclass) 和 M (class,eclass)， 前 者 表示 在 class 中 有 一 个 “ 单 
值 的 庶 人 ”的 eclass， 即 从 class 到 eclass 的 路 径 上 的 每 条 边 都 有 标记 single。 
后 者 MM 表示 在 cl1ass 中 有 一 个 “多 值 的 租 和 人 ”的 eclass， 即 一 条 从 class 到 
eclass 的 路 径 上 至 少 有 一 条 边 标记 为 multi。 
c) 谓词 Q (class,eclass) 表 示 有 一 条 路 径 从 class 到 eclass， 但 不 是 单 值 路 径 。 
你 可 以 使 用 在 这 个 练习 前 面 定 义 过 的 IDB 谓 词 。 


10.4 SQL 中 的 递归 


SQL-99 标 准 所 包含 的 对 递归 规则 的 规定 基于 在 10.3 节 描述 的 递归 Datalog。 尽管 这 一 特点 
并 不 是 所 有 DBMS 都 必须 实现 的 “核心 ”SQL-99 标 准 的 一 部 分 ， 但 至 少 有 一 个 重要 的 系统 一 一 
IBM 的 DB2 一 一 采纳 了 SQL-99 的 建议 。SQL-99 的 建议 与 我 们 的 描述 主要 存在 两 个 方面 的 差别 ， 

1. 只 强制 限制 线性 递归 ， 即 规则 中 最 多 只 有 一 个 递归 子 目 标 。 在 后 续 讨 论 中 我 们 将 忽略 这 
个 限制 。 但 要 记 住 ， 有 些 标准 SQL 实现 时 禁止 非 线性 递归 而 允许 线性 递归 。 

2. 我 们 在 10.3.3 节 中 讨论 过 的 否定 算 子 的 分 层 要 求 也 同样 适用 于 其 他 可 能 引 发 同样 问题 的 
SQL 算 子 ， 如 聚集 。 
10.4.1 在 SQL 中 定义 IDB 关 系 

WITH 语句 允许 我 们 定义 等 价 于 IDB 关 系 的 SQL 表达 式 。 这 些 定义 还 可 用 在 WITH 语句 本 身 。 
一 个 简单 形式 的 WITH 语句 是 : 

WITH R AS <definition of R> <query involving R> 

也 就 是 说 ， 先 定义 一 个 暂时 的 关系 名 为 R， 接 着 在 某 些 查 询 中 使 用 R。 更 一 般 地 ， 可 以 在 
WITH 后 先 定义 若干 关系 ,把 它们 的 定义 用 去 号 分 开 。 这 些 定义 都 是 可 递归 的 。 某 些 定义 过 的 
关系 之 间 存 在 相互 递归 ， 即 通过 定义 ， 每 一 个 关系 都 可 以 与 一 些 其 他 关系 相关 联 ， 甚 至 可 以 关 
联 它 自 身 。 然 而 ， 任何 一 个 在 递归 中 出 现 的 关系 前 都 必须 有 关键 词 RECURSIVE。 这 样 ， 一 个 
WITH 语句 的 形式 如 下 ; 

1. 关键 词 wITH。 | 

2. 一 个 或 多 个 定义 。 定 义 由 逗号 分 开 ， 每 个 定义 包括 : 

(a) 一 个 可 选 的 关键 词 RECURSITVE ， 如 果 该 关系 被 定义 为 递归 的 ， 则 该 关键 词 是 必须 的 。 

(b) 被 定义 关系 的 名 字 。 


日 ”在 这 个 练习 中 我 们 不 考虑 把 空 路 径 作为 路 径 。 
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(c) 关键 词 AS。 

(d) 定义 该 关系 的 查询 。 

3. 一 个 查询 ， 它 可 以 任意 引用 前 面 的 定义 ， 生 成 WITH 语 句 的 结果 。 

注意 ， 与 其 他 关系 的 定义 不 同 ，wITH 语 名 中 的 定义 只 在 该 语句 中 有 效 ， 不 能 在 别处 使 用 ， 
这 一 点 很 重要 。 如 果 想 要 一 个 关系 持续 有 效 ， 就 应 该 在 数据 库 模 式 中 定义 这 个 关系 ， 而 不 是 在 
任何 WITH 语句 中 定义 。 

例 10.30 让 我 们 重新 考虑 在 10.3 节 中 用 作 例 子 的 航班 信息 。 航 班 数 据 满足 一 个 关系 。 : 


Flights(airline, frm, to, departs, arrives) 

图 10-5 给 出 了 该 例子 中 的 确切 数据 。 

在 例 10.25 中 ， 我 们 计算 了 IDB 关 系 Reaches， 以 表示 乘坐 EDB 关 系 F1ights 中 的 航班 从 
第 一 个 城市 飞 到 第 二 个 城市 的 城市 配对 。Reaches 中 的 两 个 规则 为 ; 

1. Reaches(x,y) ¢ Flights(a,x,y,d,r) 

2. Reaches(x,y) + Reaches(x,z) AND Reaches(z,y) 

利用 这 些 规 则 ， 我 们 可 以 写 出 一 个 可 生成 关系 Reaches 的 SQL 查询 。 这 个 SQL 查询 把 
Reaches 的 规则 放 在 一 个 WITH 语句 中 ， 后 面 跟着 一 个 查询 。 在 例 10.25 中 ， 期 望 的 结果 是 完整 
的 Reaches 关 系 ， 我 们 也 可 以 对 Reaches 作 一 些 查询 ， 例 如 从 丹佛 可 以 到 达 的 城市 集合 。 


1) WITH RECURSIVE Reaches (frm，to) AS 
(SELECT frm, to FROM Flights) 
UNION 
(SELECT R1.frm, R2.to 


FROM Reaches Rt, Reaches R2 
WHERE Ri.to = R2.frm) 
7) SELECT * FROM Reaches; 





图 10-12 对 可 到 达 城 市 配对 的 递归 SQL 查询 


图 10-12 说 明了 怎样 用 SQL 查询 来 计算 Reaches。 第 (1) 行 介绍 Reaches 的 定义 ， 对 这 个 关 
系 更 确切 的 定义 是 在 第 (2) 到 第 (6) 行 

这 个 定义 是 两 个 查询 的 并 ， 它 们 分 别 对 应 于 例 10.25 中 定义 Reaches 的 两 条 规则 。 第 (2) 行 
是 并 的 第 一 项 ， 对 应 第 一 个 或 基本 规则 。 它 表示 对 于 F1ight 关 系 中 的 每 个 元 组 ， 第 二 和 第 三 
组 元 (frm 和 te 组 元 ) 是 Reaches 的 一 个 元 组 。 







相互 递归 

有 一 种 图 论 方法 可 以 检查 两 个 关系 或 谓词 是 否 是 相互 递归 的 。 建立 一 个 其 中 节点 与 
关系 ( 如果 我 们 在 使 用 Datalog 规 则 则 是 谓词 ) 相对 应 的 依赖 图 。 如 果 关 系 B 的 定义 直接 
依赖 于 关系 A 的 定义 ， 则 从 4 到 B 画 一 条 边 。 如 果 在 使 用 Datal6g; 则 指 A 出 现在 一 个 规则 
的 体 部 而 B 出 现在 头 部 。 在 SQL 中 ，A 会 出 现在 B 定 义 中 的 某 处 ， 一 般 是 在 一 条 FROM 子 向 
中 ， 但 也 可 能 作为 并 、 交 或 差 的 一 项 。 

如 果 有 一 个 长 包含 节点 R 和 8S， 那 么 R 和 3 是 相互 递归 的 。 最 常见 的 情况 是 一 个 从 RR 到 民 
的 循环 ， 表 明 尺 递归 地 依赖 它 自己 。 

注意 ,依赖 图 近似 于 我 们 在 10.3.3 节 介绍 过 的 定义 分 层 非 的 图 。 然 而 ， 那里 需要 区 别 
肯定 依赖 和 否定 依赖 ,而 这 里 则 不 需要 进行 区 分 。 










O 因为 fom 在 SQL 中 是 关键 词 ， 所 以 我 们 把 第 二 个 属性 名 改 成 了 frm。 
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第 (4) 到 第 (6) 行 对 应 Reaches 定 义 中 第 二 条 即 归纳 规则 。 这 两 个 Reaches 子 目标 在 FROM 子 
句 中 由 Reaches 的 两 个 别名 R1 和 R2 表 示 。R1 的 第 一 个 组 元 对 应 规则 (2) 中 的 x，R2 的 第 二 个 组 
元 对 应 y。 变 量 z 由 R1 的 第 二 个 组 元 和 R2 的 第 一 个 组 元 表示 。 注 意 ， 这 些 组 元 在 第 (6) 行 中 相等 。 

最 后 ， 第 (7) 行 描述 了 由 整个 查询 生成 的 关系 。 它 是 关系 Reaches 的 一 个 拷贝 。 用 另 一 种 
方法 ， 我 们 可 以 把 第 (7) 行 替换 成 一 个 更 为 复杂 的 查询 。 例 如 : 


7) SELECT to FROM Reaches WHERE frm = ’DEN’; 


会 产生 所 有 从 丹佛 可 到 达 的 城市 。 口 


10.4.2 分 层 非 

可 以 作为 递归 关系 定义 一 个 查询 而 不 是 任意 的 SQL 查询 。 它 们 必须 受到 特定 方式 限制 。 一 
个 最 重要 的 朗 求 就 是 相互 递归 关系 的 非 必 须 是 分 层 的 ， 就 像 在 10.3.3 节 讨论 的 那样 。 在 10.4.3 节 
我 们 将 看 到 分 层 的 原理 可 扩展 到 其 他 在 SQL 中 ， 但 在 Datalog 中 没有 ， 如 聚集 。 

例 10.31 让 我 们 重新 考查 例 10.27， 在 该 例 中 我 们 查找 可 以 乘坐 UA 航 空 公司 的 航班 〈 而 不 
是 AA 的 航班 ) 从 xz 飞 到 > 的 所 有 城市 配对 (zx, 力 。 我 们 需要 用 递归 来 表达 这 样 的 概念 ， 即 乘坐 一 
个 航空 公司 的 航班 ， 通 过 一 个 无 限 的 短程 飞行 序列 来 进行 旅行 的 概念 。 然 而 ， 非 的 特征 以 分 层 
方式 出 现 : 用 递归 计算 出 例 10.27 中 的 UAreaches 和 AAreaches 两 个 关系 后 ， 我 们 得 出 了 它 
们 的 差 。 i 

我 们 可 以 采用 同样 的 策略 来 写 SQL 查 询 。 但 是 ， 为 了 说 明 一 个 不 同 的 解决 方法 ， 我 们 将 先 
递归 地 定义 一 个 关系 Reaches (airline,frm,to) ， 它 的 三 元 组 (a, f, 有 D 表 示 只 乘坐 航空 公司 a 
的 班机 ， 人 允许 经 过 若干 次 转机 ， 从 城市 f 飞 到 城市 :。 我 们 还 要 使 用 一 个 非 递归 关系 
Triples (airline,frm,to) ， 它 是 Fl1ights 向 这 三 个 相关 组 元 的 投影 。 这 个 查询 如 图 10-13 
所 示 。 

第 (3) 到 第 (9) 行 将 关系 Reaches 定 义 为 两 项 的 并 。 基 础 项 是 第 (4) 行 的 关系 Triples。 归 纳 
项 是 第 (6) 到 第 (9) 行 的 查询 ， 它 生成 Triples 和 Reaches 自 身 的 连接 。 这 两 项 的 作用 是 为 
Reaches 加 入 所 有 (ab 元 组 ,以 使 得 人 们 可 以 只 乘坐 航空 公司 a 的 班机 ， 经 过 一 次 或 多 次 转机 ， 
从 城市 飞 到 城市 1。 

查询 本 身 出 现在 第 (10) 到 第 (12) 行 。 第 (10) 行 给 出 乘坐 UA 飞 机 可 到 达 的 城市 配对 ， 第 (12) 
行 给 出 乘坐 AA 飞 机 可 到 达 的 城市 配对 。 查 询 的 结果 是 这 两 个 关系 的 差 。 


1) WITH 
Triples AS SELECT airline, frm, to FROM Flights, 


RECURSIVE Reaches(airline, frm, to) AS 
(SELECT * FROM Triples) 
UNION 
(SELECT Triples.airline, Triples.frm, Reaches.to 


FROM Triples, Reaches 
WHERE Triples.to = Reaches,frm AND 
Triples.airline = Reaches.airline) 


(SELECT frm, to FROM Reaches WHERE airline = ’UA’) 
EXCEPT 
(SELECT frm, to FROM Reaches WHERE airline = ’AA’); 





图 10-13 分 朗 查 询 两 家 航空 公司 中 一 家 开通 的 航班 可 到 达 的 城市 


$110.32 在 图 10-13 中 ,第 (11) 行 EXCEPT 所 表示 的 非 明 显 是 分 层 的 ， 因 为 它 只 是 在 第 (3) (495 
行 到 第 (9) 行 的 递归 结束 之 后 才 被 使 用 。 另 一 方面 ， 我 们 认为 在 例 10.28 中 所 应 用 的 非 是 非 分 层 
的 非 ， 必 须 将 它 转换 成 相互 递归 关系 定义 中 的 EXCEPT。 图 10-14 给 出 了 针对 该 例 进 行 直接 转换 
的 SQL 语句 。 这 个 查询 只 求 出 了 P 的 值 ， 尽 管 我 们 还 可 以 求 出 2 或 P 和 8@ 的 一 些 函 数 。 


1) WITH 

2) RECURSIVE P(x) AS 

3) (SELECT * FROM R) 
4) EXCEPT 

5) (SELECT * FROM Q), 


6) RECURSIVE Q(x) AS 

7) (SELECT * FROM R) 
8) EXCEPT 

9) (SELECT * FROM P) 





10) SELECT * FROM P; 
图 10-14 非 分 层 查询 ， 非 法 的 SQL 


在 图 10-14 的 第 (4) 和 第 (8) 行 中 两 次 使 用 了 EXCEPT， 是 非法 的 SQL ， 因 为 在 任 一 情况 下 第 





二 个 参数 都 是 与 被 定义 的 关系 相互 递归 的 关系 。 因 此 ,这些 非 的 使 用 不 是 分 层 非 , 是 不 允许 的 。 
事实 上 ， 这 个 问题 没有 SQL 解法 ， 也 不 会 有 ， 因 为 图 10-14 中 的 递归 并 没有 为 关系 忆 和 CO 定 义 惟 
一 的 值 。 口 


10.4.3 有 问题 的 递归 SQL 表达 式 

我 们 在 例 10.32 中 已 经 看 到 ， 人 和 借助 EXcEPT 定 义 一 个 递归 关系 时 有 可 能 违反 SQL 分 层 非 的 要 
求 。 而 且 ， 还 有 其 他 的 不 使 用 EXCEPT 的 不 可 接受 的 查询 形式 。 例 如 ， 一 个 关系 的 非 也 可 以 表 
示 为 NOT IN。 这 样 ， 图 10-14 中 第 (2) 到 第 (3) 行 也 可 以 写成 

RECURSIVE P(x) AS 

SELECT x FROM R WHERE x NOT IN Q 

这 个 重 写 使 得 递归 仍 是 非 分 层 的 ， 也 是 非法 的 。 

为 一 方面 ， 在 WHERE 子 名 中 简单 地 使 用 NOT， 如 NOT x-y (或 者 写 为 x<>y ) 并 不 会 自动 
违反 分 层 非 条 件 。 那 么 ， 确 定 可 以 用 来 定义 SQL 递归 关系 的 SQL 查询 的 一 般 规 则 是 什么 呢 ? 496 

定义 一 个 合法 的 SQL 递归 的 原则 是 ， 递 归 关 系 R 的 定义 只 能 用 于 相互 递归 关系 8 ( 5 可 以 是 R 
本 身 )， 其 前 提 是 $ 的 使 用 是 单调 的 。 当 添加 任意 元 组 到 9 中 时 ， 要 么 添加 一 个 或 多 个 元 组 到 有 R， 
要 么 使 得 R 不 变 ， 但 不 会 使 得 R 中 任意 元 组 被 删除 ， 此 时 称 $ 的 使 用 是 单调 的 。 

当 考 虑 10.3.2 节 中 描述 的 最 小 不 动 点 计算 时 ， 这 个 规则 就 显得 很 有 意义 了 。 我 们 开始 时 递 
归 定 义 的 IDB 关 系 为 空 ， 接 着 在 后 续 的 循环 中 不 断 向 它们 添加 元 组 。 如 果 在 一 个 循环 中 添加 一 
个 元 组 会 导致 在 下 一 循环 必须 删除 一 个 元 组 ， 那 么 就 会 有 抖动 的 危险 ， 不 动 点 计算 有 可 能 不 能 
收敛 。 在 下 面 的 例子 中 ,我 们 将 会 看 到 一 些 非 单调 构造 ， 它 们 在 SQL 递归 中 是 非法 的 。 

例 10.33 ”图 10-14 是 对 例 10.28 的 非 分 层 非 的 Datalog 规 则 的 实现 。 其 中 ， 规 则 允许 两 个 不 
同 的 最 小 不 动 点 。 正 如 我 们 预期 的 ， 图 10-14 中 P 和 @ 的 定义 不 是 单调 的 。 我 们 以 第 (2) 到 第 (5) 行 
的 P 的 定义 为 例 。P 依 赖 于 QC， 两 者 相互 递归 ， 但 添加 一 个 元 组 到 0 中 会 删除 P 中 的 一 个 元 组 。 
来 看 看 为 什么 ,假设 R 包 含 两 个 元 组 (a) 和 (b)，0Q 包 含 元 组 (a) 和 (c)。 那么 P={(5b)}。 然 而 ， 如 果 
添加 (5b) 到 Q， 那 么 P 为 空 。 对 Q 添 加 一 个 元 组 会 导致 P 中 删除 一 个 元 组 ， 所 以 我 们 可 以 说 它 是 一 
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个 非 单调 的 非法 构造 。 

当 我 们 试图 通过 计算 最 小 不 动 点 来 计算 关系 P 和 CC 时， 缺乏 单调 性 会 直接 导致 拌 动 行为 的 
发 生 ? 。 例 如 ， 假 设 R 有 两 个 元 组 {(a),(b)}。 开 始 时 ，P 和 2 都 为 空 。 因 此 ， 在 第 一 循环 中 ， 图 
10-14 中 的 第 (3) 到 第 (5) 行 计算 出 包含 值 {(a),(5b)} 的 P。 第 (7) 到 第 (9) 行 计算 出 包含 同样 值 的 CO， 因 
为 在 第 (9) 行 中 使 用 的 是 原 有 的 为 空 值 的 P。 

现在 ，R、P 和 Q 都 有 值 {(a),(5)} 。 因 此 ， 在 下 一 循环 中 ， 在 第 (3) 到 第 (5) 行 以 及 第 (7) 到 第 
(9) 行 分 别 计算 出 P 和 @ 的 值 为 空 。 在 第 三 循环 ， 计 算得 到 它们 的 值 为 {(oJ,(b)}。 这 个 过 程 会 不 
断 持 续 下 去 ， 在 侦 数 循环 两 个 关系 都 为 空 ， 而 奇数 循环 都 为 {(a),(b)} 。 因 此 ， 我 们 永远 不 能 从 
图 10-14 的 “定义 ”中 得 到 两 个 关系 P 和 QO 的 确定 值 。 口 


例 10.34 ”聚集 也 可 能 导致 非 单调 性 ， 尽 管 一 开始 连接 可 能 会 不 明显 。 假 设 我 们 有 一 元 
《一 个 属性 ) 关系 P 和 Q， 它 们 由 以 下 两 个 条 件 定义 : 

1. P 是 0 与 一 个 EDB 关 系 R 的 并 。 

2. Q 有 一 个 元 组 ， 它 是 P 的 成 员 的 总 和 。 

我 们 可 以 用 一 个 WITH 滞 句 表示 这 些 条 件 ， 尽 管 这 条 语句 违反 了 SQL 的 单调 性 要 求 。 图 10-15 
给 出 了 对 P 的 值 的 查询 。 

1) WITH 
RECURSIVE P(x) AS 
(SELECT * FROM R) 


UNION 
(SELECT * FROM Q), 


RECURSIVE Q(x) AS 
SELECT SUM(x) FROM P 


8) SELECT * FROM P; 
图 10-15 涉及 聚集 的 非 单调 非法 SQL 查询 





假设 R 包 含 元 组 (12) 和 (34)， 且 P 和 2 的 初始 值 都 为 空 ， 因 为 这 是 不 动 点 计算 开始 时 的 必然 
要 求 。 图 10-16 一 起 给 出 了 前 六 个 循环 中 计算 出 的 值 。 重 温 一 下 我 们 已 经 认可 的 策略 ， 即 所 有 
关系 都 由 前 一 循环 的 值 在 下 一 个 循环 中 计算 出 来 。 于 是 ，P 在 第 一 循环 计算 出 的 值 是 与 R-- 样 
的 ， 而 Q 为 空 ， 因 为 在 第 (7) 行 中 使 用 了 P 原 有 的 空 值 。 


Round P Q 
1 ( 






) {(12), (34)} 
{(12), (34)} 
Ga Gey {O27 | 
} 
5 {(12), (34), (92)} | {(92)} 
{(12), (34), (92)} | 1(138)} 
图 10-16 对 非 单调 聚集 不 动 点 的 迭代 计算 


在 第 二 个 循环 ， 第 (3) 到 第 (5) 行 的 并 等 于 集合 R= {(12),(34)} ， 所 以 它 成 为 P 的 新 值 。P 的 原 

















O 如果 递归 不 是 单调 的 ， 那 么 我 们 在 wITH 子 句 中 对 求解 关系 的 顺序 会 影响 最 终结 果 ， 而 当 递归 是 单调 时 ， 结 


果 是 与 顺序 无 关 的 。 在 本 例 和 下 一 例 中 ， 我 们 假设 在 每 一 循环 中 ，P 和 9@ 是 “并 行 ” 求 解 的 。 即 在 每 个 循环 
中 ， 都 用 每 个 关系 的 原 有 值 来 计算 另 一 关系 的 值 。 可 参考 “在 不 动 点 计算 中 使 用 新 值 ” 框 中 内 容 。 





和 本 


值 与 新 值 一 样 ， 所 以 在 第 二 循环 C = {(46)}。 也 就 是 说 ，46 等 于 12 和 34 的 和 。 
在 第 三 循环 ,我 们 从 第 (2) 到 第 (5) 行 得 到 P = {(12),(34),(46)}， 使 用 P 的 原 值 {(12),(34)} ,第 
(6) 到 第 (7) 行 再 次 将 Q 定 义 为 {(46)}。 






在 不 动 点 计算 中 使 用 新 值 

人 们 可 能 会 问 为 什么 在 例 10.33 和 10.34 中 我 们 用 P 的 原 值 计算 QO， 而 不 是 用 P 的 新 值 。 
如 果 这 些 查 询 是 合法 的 ， 而 我 们 在 每 个 循环 中 使 用 新 值 ， 那 么 查询 结果 可 能 会 依赖 我 们 
在 WITH 子 身 中 给 出 递归 谓词 定义 的 先后 顺序 。 在 例 10.33 中 ，P 和 QO 会 依赖 于 计算 顺序 而 
收敛 到 一 个 或 两 个 可 能 的 不 动 点 。 在 例 10.34 中 ，P 和 QO 还 是 不 会 收 诡 ， 事 实 上 它们 的 值 
在 每 个 循环 中 都 改变 ， 而 不 是 每 隔 一 个 循环 改变 一 次 。 












在 第 四 循环 ，P 有 同样 值 (12).(34)(46)} ， 但 @ 的 值 为 {(92)}， 因 为 12+34+46=92。 注 意 ，O 
失去 了 元 组 (46)， 尽 管 它 得 到 了 元 组 (92)。 也 就 是 说 ， 添 加 一 个 元 组 (46) 到 P 中 会 导致 0 中 一 个 
元 组 (因为 巧合 是 同样 元 组 ) 被 删除 。 这 种 行为 是 被 SQL 在 递归 定义 中 禁止 的 非 单调 性 行为 ， 
印证 了 图 10-15 中 的 查询 是 非法 的 。 一 般 来 说 ， 在 第 2i 个 循环 ，P 包 含 元 组 (12)，(34) 和 (46i-46)， 
而 Q 仅 包含 元 组 (46i)。 口 


10.4.4 习题 
习题 10.4.1 在 例 10.23 中 我 们 讨论 了 关系 


Sequel0f (movie, sequel) 


它 给 出 了 一 个 电影 紧 接 的 续集 。 我 们 还 定义 了 一 个 IDB 关 系 Fol1owon， 其 配对 (x,y) 表 示 
电影 > 为 的 续集 、 续 集 的 续集 或 者 不 断 延 伸 的 续集 。 试 完成 下 述 练习 : 
a) 以 SQL 递归 形式 写 出 Fol1lowon 的 定义 。 
b) 写 出 一 个 递归 SQL 查询 ， 返 回 配对 (x,y) 的 集合 ， 使 得 电影 ?是 电影 z 的 后 续 ， 但 不 是 
续集 。 
c) 写 出 一 个 递归 SQL 查询 ， 返 回 配对 (xy) 的 集合 ， 使 得 电影 ?是 电影 xz 的 后 续 ， 但 既 不 
是 续集 ， 也 不 是 续集 的 续集 。 
! d) 写 出 一 个 递归 SQL 查询 ， 返 回 至 少 有 两 个 后 续 的 电影 xz 的 集合 ， 注 意 两 个 后 续 可 以 
都 是 续集 ， 而 不 必 一 个 是 续集 ， 另 一 个 是 续集 的 续集 。 
! e) 写 出 一 个 递归 SQL 查 询 ， 返 回 配对 (x,y) 的 集合 ， 使 得 电影 y 是 电影 x 的 后 续 ， 但 y 最 多 
有 一 个 后 续 。 
习题 10.4.2 在 习题 10.3.3 中 ， 我 们 介绍 了 关系 


Rel(class, eclass, mult) 


它 描述 了 一 个 ODL 类 是 如 何 与 其 他 类 关联 的 。 具 体 地 说 ， 如 果 有 一 个 从 类 c 到 类 4 的 关系 ， 
那么 这 个 关系 拥有 元 组 (c,d,m)。 如 果 m= ‘multi' ， 那 么 这 个 关系 是 多 值 的 ， 如 果 m = 
“single”， 那 么 这 个 关系 是 单 值 的 。 我 们 在 习题 10.3.3 中 还 建议 可 以 把 Rel 看 做 对 一 张 图 
的 定义 ， 图 中 的 节点 是 类 。 当 且 仅 当 (c,d,m) 是 Re1l 的 一 个 元 组 时 ， 在 图 中 有 一 一 条 从 c 到 qd 的 
边 ， 标 记 为 m。 写 出 一 个 递归 SQL 查 询 ， 生 成 下 列 配对 (c,d) 的 集合 : 
a) 在 上 述 的 图 中 有 一 条 从 类 c 到 类 < 的 路 径 。 
* b) 有 一 条 路 径 从 c 到 d，, 该 路 径 上 的 每 条 边 都 被 标记 为 single。 
*! co 有 一 条 路 径 从 c 到 4， 该 路 径 上 至 少 有 一 条 边 被 标记 为 multi。 
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d) 有 一 条 路 径 从 c 到 d， 但 不 存在 所 有 边 都 被 标记 为 single 的 路 径 。 
! e) 有 一 条 路 径 从 c 到 4， 该 路 径 上 的 边 交 替 标记 为 single 和 multi。 
f) 有 路 径 从 c 到 4d 和 从 d 到 c， 路 径 上 每 条 边 都 被 标记 为 single。 


10.5 小 结 


。Datalog: 这 种 逻辑 形式 允许 我 们 在 关系 模型 上 编写 查询 。 在 Datalog 中 可 以 编写 规则 ， 规 
则 的 头 部 谓词 或 关系 根据 子 目 标 组 成 的 体 部 来 定义 。 

。 原 子 : 规则 头 部 和 子 目 标 都 是 原子 ， 原 子 由 一 个 应 用 于 若 于 个 参数 ( 可 选 为 否定 ) 的 谓 
词组 成 。 谓 词 可 以 表示 关系 或 算术 比较 (如 < )。 

。IDB 和 EDB 谓 词 : 某 些 谓词 对 应 于 已 存储 的 关系 ， 被 称 为 EDB (扩展 数据 库 ) 谓词 或 称 
为 关系 。 另 一 种 谓词 ， 称 为 IDB ( 内 涵 数 据 库 ) 谓词 ， 是 由 规则 定义 的 。EDB 谓 词 不 出 
现在 规则 头 部 。 

。 安 全 规则 : 一 般 我 们 说 Datalog 规 则 是 安全 的 ， 是 指 规则 中 每 个 变量 都 出 现在 体 部 的 一 些 
非 否 定 关系 子 目 标 中 。 安 全 规则 保证 : 如 果 EDB 关 系 是 有 限 的 ， 那 么 IDB 关 系 也 将 是 有 
限 的 。 

。 关系 代数 和 Datalog: 所 有 关系 代数 可 以 表示 的 查询 也 可 以 用 Datalog 表 示 出 来 。 如 果 规 则 
是 安全 和 非 递 归 的 ， 那 么 它们 可 以 定义 与 关系 代数 完全 一 样 的 查询 集合 。 

。 递归 Datalog: Datalog 规 则 可 以 为 递归 的 ， 人 允许 一 个 关系 由 它 自身 定义 。 不 加 香 定 的 递归 
Datalog 规 则 的 含义 是 最 小 不 动 点 : IDB 关 系 的 最 小 元 组 集合 ， 它 使 得 规则 头 部 与 规则 体 
部 的 共同 含义 保持 一 致 。 

。 分 层 非 ， 当 一 个 递归 包含 非 操作 时 ， 最 小 不 动 点 可 能 不 惟一 ， 在 某 些 情况 下 对 于 Datalog 
规则 没有 可 接受 的 含义 。 因 此 ， 在 一 个 递归 内 部 使 用 非 是 必须 被 禁止 的 ， 这 导致 了 对 分 
层 非 的 要 求 。 对 这 种 类 型 的 规则 ， 有 一 个 〈 也 许 若 干 个 ) 最 小 不 动 点 ， 它 是 规则 一 般 可 
以 接受 的 含义 。 

。SQL 递 归 查 询 : 在 SQL 中 可 以 定义 暂时 关系 ， 它 的 使 用 类 似 于 Datalog 中 的 IDB 关 系 。 这 
些 暂时 关系 可 以 被 递归 使 用 ， 以 建立 查询 的 结果 。 

* SQL 的 分 层 ; 在 SQL 递归 中 的 非 和 聚集 必须 是 单调 的 ， 这 是 对 Datalog 中 分 层 非 要 求 的 概 
括 。 直 观 地 说 ， 就 是 一 个 关系 不 能 直接 或 间接 的 由 自身 的 非 或 聚集 来 定义 。 
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第 11 章 数据 存储 


这 一 章 研 究 数据 库 管 理 系统 的 实现 。 首 先 讨 论 的 是 DBMS 如 何 有 效 地 处 理 非常 大 量 的 数据 。 
研究 分 为 两 个 部 分 : 

1. 计算 机 系统 如 何 存储 和 管理 非常 大 量 的 数据 ? 

2. 何 种 表示 方式 和 数据 结构 是 对 有 效 处 理 这 类 数据 的 最 佳 支持 ? 

本 章 先 回答 第 一 个 问题 ,第 二 个 问题 留待 第 12 ~ 14 章 讨论 。 

本 章 研究 用 于 存储 大 量 信息 的 设备 ， 特 别 是 旋转 式 磁盘 。 同 时 介绍 “存储 器 层次 "， 并 考 
察 数据 在 主 存储 器 与 辅助 存储 器 ( 通常 是 磁盘 ) 乃至 “第 三 级 存储 器 ”( 用 于 存储 和 访问 大 量 
的 光盘 或 磁带 的 机 器 人 设备 ) 之 间 移 动 的 模式 如 何 影响 涉及 大 量 数据 的 算法 的 效率 。 一 个 特 
定 的 算法 ， 即 两 阶段 多 路 归并 排序 算法 ， 会 被 用 来 作为 这 类 有 效 地 使 用 存储 器 层次 算法 的 一 
个 重要 示例 。 

在 11.5 节 还 将 讨论 缩短 从 磁盘 读 写 数据 时 间 的 若干 技术 。 最 后 两 节 讨 论 提高 磁盘 可 靠 性 的 
方法 ， 所 涉及 的 问题 包括 间断 性 读 写 错误 ， 以 及 造成 数据 永 不 可 读 的 “磁盘 月 溃 "。 

作为 本 章 的 开端 ， 先 来 讨论 一 个 虚构 的 测试 ， 看 看 如 果 不 采用 DBMS 的 特定 实现 方法 会 带 
来 什么 问题 。 


11.1 Megatron 2002 数 据 库 系统 


如 果 你 用 过 某 个 DBMS ， 你 可 能 认为 实现 这 样 的 一 个 系统 并 不 困难 。 你 心里 可 能 会 想到 
Megatron 系 统 公 司 最 近 ( 虚构 ) 提供 的 一 个 实现 : Megatron 2002 数 据 库 管理 系统 。 该 系统 在 
UNIX 和 其 他 操作 系统 上 运行 ， 采 用 关系 方法 ， 支 持 SQL 语 言 。 

11.1.1 Megatron 2002 实 现 细节 

首先 ，Megatron 2002 采 用 UNIX 文 件 系 统 来 存储 它 的 关系 。 例 如 ， 关 系 Students 
(name, id, dept ) 会 存储 在 文件 /usr/db/students 中 。 对 于 该 关系 的 每 个 元 组 ， 在 文件 
Students 中 有 一 行 。 一 个 元 组 中 各 个 分 量 的 值 存储 成 由 特殊 的 标记 字符 # 分 开 的 字符 串 。 例 
如 ， 文 件 /asrdb/Students 可 能 看 起 来 像 下 面 这 样 : 


Smith#123#cs 
Johnson#522#EE 


存储 数据 库 模式 的 特定 文件 的 命名 为 /usr/dby/schema。 对 于 每 一 个 关系 ， 文 件 schema 
中 有 一 个 以 该 关系 的 名 字 起 始 的 行 ， 行 中 关系 的 属性 名 和 属性 类 型 交替 出 现 。 字 符 # 用 来 分 隔 
行 中 元 素 。 例 如 ， 文 件 schema 中 可 能 包含 如 下 的 行 ; 


Students#name#STR#id#INT#dept#STR 
Depts#name#STR#office#STR 


这 里 对 关系 Students (name,iddept) 进行 了 描述 ， 邑 属性 name 和 dept 的 类 型 是 字符 
串 ， 属 性 id 的 类 型 是 整数 。 文 件 schema 中 同时 还 有 对 模式 为 Depts (name,office) 的 关系 的 
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描述 。 

例 11.1 下 面 是 使 用 Megatron 2002 DBMS 的 一 个 会 话 实例 。 程 序 运行 在 一 台 称 做 dbhost 
的 机 器 上 ， 通 过 UNIX 层 的 命令 megatron 2002 启 动 DBMS。 

dbhost>megatron2002 

产生 如 下 响应 

WELCOME TO MEGATRON 2002! 

现在 是 与 Megatron 2002 的 用 户 界 面 对 话 ， 对 于 Megatron 提 示 符 (& )， 可 以 键 人 SQL 查询 
作为 响应 。 查 询 用 # 结 束 。 例 如 ， 


& SELECT * FROM Students # 


产生 下 表 作为 回答 
name id dept 
Smith 123 | CS 
Johnson | 522 | EE 
Megatron 2002 还 允许 执行 一 个 查询 后 把 结果 存在 一 个 新 的 文件 中 ， 做 法 是 用 一 条 竖 线 和 
文件 名 来 结束 查询 。 例 如 : 


& SELECT * FROM Students WHERE id >=500 | HighId # 


查询 创建 了 一 个 新 的 文件 /usr/db/HighId， 文件 中 只 有 一 行 数据 : 


Johnson #522 #EE 口 


11.1.2 Megatron 2002 如 何 执行 查询 
考虑 SQL 查询 的 一 般 形式 : 
SELECT * FROM R WHERE <Condition> 
Megatron 2002 将 做 下 列 事情 ; 
1. 读 文 件 schema， 以 确定 关系 R 中 有 了 哪些 属性 以 及 它们 的 类 型 。 
2. 检查 < 条 件 > 对 于 关系 R 的 语义 合法 性 。 
3. 显示 每 个 属性 的 名 字 作为 列 的 头 ， 然 后 画 一 条 线 。 
4. 读 文 件 名 为 R 的 文件 ， 对 于 每 一 行 : 


目 


a) 检查 是 否 符合 条 件 ; 
b 若 符合 条 件 ， 则 显示 该 行为 一 个 元 组 。 
要 执行 
SELECT * FROM R WHERE <condition> | T 
Megatron 2002 将 做 以 下 事情 : 
1. 如 上 所 述 处 理 查 询 , 但 省 略 第 (3) 步 ， 该 步骤 是 产生 每 列 的 头 部 并 画 一 条 线 来 分 隔 开 列 
头 和 元 组 。 


2. 将 结果 写 到 一 个 新 文件 /usr/db/T 中 。 | 
3. 往 文件 /usr/db/schema 中 添加 一 个 表示 7 的 新 条 目 ， 该 条 目 和 关于 R 的 条 目 一 样 ， 
只 是 关系 名 为 7， 而 不 是 R。 也 就 是 说 ， 关 系 了 的 模式 与 关系 R 的 模式 相同 。 
例 11.2 ”现在 考虑 一 个 更 复杂 的 查询 ， 查 询 涉及 到 两 个 作为 范例 的 关系 students 和 
Depts 的 连接 : 


SELECT office 


| 


7 


FROM Students, Depts 
WHERE Students.name = 'Smith' AND 
Students.dept = Depts.name # 


这 个 查询 要 求 Megatron 2002 对 关系 Students 和 Depts 进 行 “连接 ”。 即 系统 必须 逐个 考 
虑 从 这 两 个 关系 中 各 取 一 个 元 组 所 组 成 的 每 一 对 元 组 ， 并 检验 是 否 满足 下 列 条 件 : 
a) 这 两 个 元 组 表示 相同 的 系 。 
b) 学 生 的 名 字 是 Smith。 
该 算法 可 以 非 形式 化 地 描述 如 下 : 
FOR each tuple s in Students DO 
FOR each tuple d in Depts DO 


IF s and d satisfy the where-condition THEN 
display the office value from Depts; 口 


11.1.3 Megatron 2002 有 什么 问题 
毫 无 疑问 ，DBMS 与 腾 想 的 Megatron 2002 的 实现 不 同 。 对 于 涉及 大 量 数据 或 多 用 户 的 应 用 
来 说 ， 这 里 描述 的 实现 在 许多 方面 不 合适 。 下 面 列 出 其 中 的 部 分 问题 : 
“元 组 在 磁盘 上 的 排列 不 够 好 ， 缺 乏 对 数据 库 进 行 修 改 时 所 需 的 灵活 性 。 例 如 ， 如 果 在 一 
个 Students 元 组 中 将 EE 改 为 BCON， 整 个 文件 都 需要 重 写 ， 因 为 后 续 的 每 一 个 字符 都 需 
要 在 文件 中 后 移 两 个 位 置 。 | 
* 查 找 代 价 太 高 。 即 使 查询 给 出 一 个 值 或 一 组 值 ， 使 查找 可 以 集中 针对 某 个 元 组 上 ( 例如 
例 11.2 的 查询 )， 也 总 是 需要 读 人 整个 关系 。 在 例 11.2 中 ， 即 使 所 要 的 只 是 学 生 Smith 的 
元 组 ， 也 必须 查看 整个 的 Student 关 系 。 
。 查 询 处 理 是 一 种 “ 蛮 干 ”的 方法 ， 而 实际 上 对 于 执行 连接 这 样 的 操作 ， 有 更 加 巧妙 的 方 
法 可 用 。 例如， 以 后 会 看 到 对 于 像 例 11.2 中 那样 的 查询 ， 即 使 没有 指明 某 个 学 生 ( Smith ), 
也 不 必 查 看 取 自 两 个 关系 的 每 一 对 元 组 。 
。 无 法 在 主 存储 器 中 缓存 有 用 的 数据 ， 所 有 的 数据 都 来 自 硬 盘 ， 任 何 时 候 都 是 这 样 。 
。 没 有 并 发 控制 。 几 个 用 户 可 以 同时 修改 同一 个 文件 ， 从 而 导致 不 可 预期 的 结果 。 
， 没 有 可 靠 性 。 发 生 故 障 时 可 能 丢失 数据 ， 或 者 会 有 半途 而 废 的 操作 。 
本 书 的 剩余 部 分 将 向 你 介绍 解决 这 些 问 题 的 技术 ， 希望 你 对 这 个 研究 感 兴趣 。 


11.2 存储 器 层次 DBMS 
一 个 典型 的 计算 机 系统 包括 几 个 可 以 存储 数据 的 


不 同 部 件 。 这 些 部 件 的 数据 存储 容量 至 少 有 7 个 数量 DBMS 的 
级 ， 其 访问 速度 也 有 7 个 或 超过 7 个 数量 级 。 这 些 部 件 程序 、 主 存 
的 每 个 字 节 的 费用 也 各 不 相同 ， 但 是 变化 的 范围 要 小 
些 ， 最 便宜 的 存储 器 与 最 昂贵 的 存储 器 相 比 每 个 字 节 BIEN, ME 
的 费用 也 许 要 相差 3 个 数量 级 。 毫 不 奇怪 ， 具 有 最 小 ER 
11.2.1 高 速 缓冲 存储 器 

存储 器 层次 的 最 低层 是 高 速 缕 冲 存储 器 (cache )。 
单 板 高 速 缓存 集成 在 微 处 理 器 芯片 上 ， 而 附加 的 二 级 图 11-1 存储 器 层次 





容量 的 设备 提供 最 快 访问 速度 ， 其 每 个 字 节 的 费用 也 
最 高 。 存 储 器 的 层次 结构 如 图 11-1 所 示 。 
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高 速 缓存 集成 在 另外 的 芯片 上 。 高 速 缓存 中 的 数据 (包括 机 器 指令 ) 是 主 存储 器 中 特定 位 置 的 
数据 的 副本 ， 主 存储 器 位 于 存储 器 层次 中 高 速 缓存 的 上 一 层 。 有 时 ， 高 速 缓存 中 的 数据 值 被 改 
变 了 ， 而 主 存储 器 中 相应 的 变化 滞后 于 高 速 缓存 的 变化 。 尽 管 如 此 ， 某 一 时 刻 高 速 缓存 中 的 每 
一 个 值 还 是 与 主 存 中 某 一 位 置 的 值 相对 应 ， 高 速 缓存 与 主 存 之 间 的 数据 传输 单位 通常 是 少量 字 
节 。 因 此 ， 可 以 认为 ， 高 速 缓存 中 保留 着 单独 的 机 器 指令 、 整 数 、 浮 点 数 或 短 字 符 串 。 

当 机 器 执行 指令 时 ， 它 在 高 速 缓存 中 寻找 指令 以 及 这 些 指令 要 使 用 的 数据 。 如 果 在 高 速 绥 
存 中 找 不 到 这 些 指令 和 数据 ， 它 就 要 到 主 存 中 去 寻找 ， 并 将 它们 拷贝 到 高 速 缓存 中 去 。 由 于 高 
速 缓存 中 只 能 保留 有 限 数量 的 数据 ， 通 常 必须 将 高 速 缓 存 中 某 些 内 容 移出 去 ， 以 便 接纳 新 的 数 
据 。 如 果 被 移出 高 速 缓存 的 内 容 自从 它 被 复制 到 高 速 缓存 以 来 一 直 没 有 改变 ， 就 不 需要 做 任何 
事情 。 和 否则 ， 如 果 数 据 已 经 被 修改 ， 那 么 新 的 值 必 须 拷贝 到 它 在 主 存 中 原先 的 位 置 。 

当 高 速 缓存 中 的 数据 被 修改 时 ， 只 有 单个 处 理 器 的 简单 计算 机 不 需要 立即 更 新 主 存 中 相应 
位 置 的 数据 。 然 而 ， 在 某 些 多 处 理 器 系统 中 ， 人 允许 多 个 处 理 器 访问 相同 的 内 存 ， 并 且 各 处 理 器 
拥有 各 自私 有 的 高 速 缓存 。 在 这 种 情况 下 ， 直 写 〈write through) 对 于 高 速 缓存 更 新 通常 是 必 
不 可 少 的 ， 即 它 立 即 修改 主 存 中 相应 的 位 置 。 

在 2001 年 ， 典 型 的 高 速 缓存 的 容量 达到 了 1 兆 字 节 。 高 速 缓存 与 处 理 器 之 间 数 据 的 读 写 操 
作 可 以 以 处 理 器 指令 的 速度 执行 ， 通 常 为 几 纳 秒 (1 纳 秒 = 10-" 秒 )。 另 一 方面 ， 在 高 速 缓存 与 
主 存 之 间 移 动 一 条 指令 或 一 个 数据 项 的 时 间 则 要 长 得 多 ， 或 许 要 100 纳 秘 。 

11.2.2 主 存储 器 

计算 机 主 存 储 器 (简称 主 存 ， 又 称 内 存 ) 是 计算 机 的 活动 中 心 。 可 以 认为 ， 发 生 在 计算 机 
中 的 每 一 件 事情 ， 不 论 是 指令 的 执行 还 是 数据 的 操纵 ， 都 是 作用 于 驻 留 在 主 存 的 信息 上 ， 尽 管 
实际 上 使 用 的 数据 通常 会 转移 到 高 速 缓存 中 ， 正 如 在 11.2.1 节 讨论 过 的 那样 。 

在 2001 年 ， 通 常 的 机 器 配置 的 主 存 大 约 有 100MB ( 10: 字 节 )。 然 而 ， 配 有 更 大 容量 主 存 的 
机 器 也 能 找到 ， 比 如 10GB ( 10! 字 节 ) 或 更 大 容量 。 

主 存 是 随机 访问 的 ， 这 意味 着 在 同一 时 间 内 可 获得 任何 一 个 字 节 。。 通 常 主 存 访问 数据 的 
时 间 为 10 ~ 100 纳 秒 ( 10-8 ~ 10-7 )。 


计算 机 的 量 级 是 2 的 乘 宕 

通常 在 读 论 计算 机 部 件 的 大 小 或 客 量 时 就 好 像 它 们 是 10 的 方 寨 ， 例 如 : RRR F 
兆 ( 吉 ) FH, 等 等 。 实 际 上 ， 因 为 最 有 效 的 方法 是 将 存储 器 芯片 那样 的 部 件 设计 成 其 
容量 恰好 是 2 的 乘 震 的 二 进 制 数 ， 所 以 事实 上 这 些 数 字 都 是 与 之 最 接近 的 2 的 乘 千 的 简写 。 
因为 219 = 1024， 它 接近 于 一 千 ， 于 是 常常 假设 210 = 1000, FHLARA2HRAM “T” 
(前 级 kilo )。220 为 “ 兆 ”( 前 组 mega )，230 为 “ 吉 ”( 前 缓 giga )，240 为 “ 太 ”( 前 组 tera )， 
250 为 “ 拍 ”( 前 组 peta )。 尽 管 按照 科学 计数 法 ， 这 些 前 缓 依次 指 的 是 103、1056、109、1022 
和 10!5。 误 差 随 着 谈论 的 数量 的 增 大 而 增长 。1 吉 字 节 的 值 真正 是 1.074 x 10? 字 节 。 

一 般 采 用 标准 的 缩 略 来 表示 这 些 数值 ，K、M、G、T 和 PP 分别 依次 表示 千 、 兆 、 吉 、 
太 和 拍 。 这 样 ，16GB 表 示 16 吉 字 节 ， 或 者 严格 地 说 是 234 字 节 。 由 于 有 时 想 谈 论 传统 的 10 
的 方 吉 的 数值 ， 所 以 将 保留 这 些 传统 的 数字 单位 来 表示 这 些 数 值 , 而 不 是 采用 “ 千 ”、“ 焰 ” 
等 前 级。 例如 ,，“ 一 百 万 字 节 ”就 是 1 000 000 字 节 ， 而 “一 兆 字 节 ” 则 是 1048 576 字 节 。 

















日 ”尽管 有 些 现 代 的 并 行 计算 机 有 一 个 主 存储 器 被 许多 处 理 器 以 某 种 方式 共享 ， 这 种 方式 使 存储 器 的 某 一 部 
分 的 访问 时 间 不 同 ， 对 于 不 同 的 处 理 器 ， 可 能 相差 3 售 。 
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11.2.3 虚拟 存储 器 

在 写 程序 的 时 候 ， 所 使 用 的 数据 如 程序 变量 、 要 读 取 的 文件 等 都 要 占据 一 个 虚拟 存储 地 址 
空间 ( Virtual Memory Address Space )， 程 序 指令 同样 也 占据 一 个 它们 自己 的 地 址 空间 。 许 多 
机 器 使 用 32 位 字 长 的 地 址 空间 ; 也 就 是 说 有 222 个 或 者 大 约 40 亿 个 不 同 的 地 址 。 因 为 每 个 字 节 需 
要 它 自己 的 地 址 ， 一 般 可 以 认为 虚拟 存储 器 是 4GB 。 

由 于 虚拟 存储 器 空间 比 通常 的 内 存 大 得 多 ， 一 个 完全 被 占用 的 虚拟 存储 器 的 大 部 分 内 容 实 
际 上 是 在 硬盘 上 。 在 11.3 节 将 讨论 硬盘 的 通常 操作 ， 现 在 只 需要 意识 到 硬盘 是 被 逻辑 地 分 成 多 
个 块 (block )。 通 常 ， 硬 盘 上 块 的 大 小 是 在 4KB ~ 56KB 。 虚 拟 存 储 器 以 整个 块 为 单位 在 硬盘 和 
主 存 之 间 移 动 ， 在 主 存 中 的 块 常常 被 称 做 页 (page)。 机 器 硬件 和 操作 系统 允许 虚 存 页 进入 主 存 
的 任何 部 分 ， 并 且 虚 拟 地 址 能 够 正确 地 指向 块 中 的 每 一 个 字 节 。 

图 11-1 中 有 关 虚 拟 存储 器 的 路 径 代 表 传 统 的 程序 和 应 用 的 处 理 方法 。 它 不 代表 数据 库 中 管 
理 数据 的 通用 方式 。 然 而 ， 人 们 对 主 存 数据 库 系统 ( main-memory Database system ) 的 兴趣 正 
在 增加 。 主 存 数据 库 系统 通过 虚 存 来 管理 它们 的 数据 ， 依 靠 操作 系统 ， 通 过 页 面 机 制 把 所 需要 
的 数据 送 入 主 存 。 类 似 于 大 多 数 应 用 系统 ， 当 数据 量 小 到 可 以 被 保存 在 主 存 时 最 有 用 ， 因 为 这 
时 不 需要 通过 操作 系统 来 交换 数据 。 如 果 一 台 机 器 有 32 位 字 长 的 地 址 空间 ， 那 么 主 存 数据 库 系 
统 很 适 于 那些 不 需要 同时 在 主 存 中 保留 4 千 光 字 节 数据 的 应 用 ( 如 果 机 器 的 实际 主 存 比 2” 字 节 
小 ， 那么 数据 量 要 更 少 些 )。 这 个 规模 的 空间 对 于 许多 应 用 来 说 是 足够 的 ， 但 是 对 于 规模 较 大 
的 DBMS 应 用 来 说 就 不 够 了 。 

因此 ， 大 规模 数据 库 系统 直接 在 硬盘 上 管理 它们 的 数据 。 这 些 系统 的 大 小 仅 受 可 以 存储 在 
计算 机 所 有 硬盘 和 其 他 可 用 存储 设备 的 数据 总 量 的 限制 。 下 一 节 将 介绍 这 种 操作 模式 。 
11.2.4 二 级 存储 器 

每 一 台 计 算 机 基本 上 都 有 某 种 类 型 的 二 级 存储 器 ( secondary storage )。 二 级 存储 器 是 存储 
器 的 一 种 ， 它 的 速度 要 比 内 存 慢 得 多 ,而 存储 容量 则 要 比 内 存 大 得 多 , 并 且 基 本 上 是 随机 访问 ， 
访问 不 同 数据 项 所 需 时 间 的 差别 相对 较 小 ( 这些 差 别 将 在 11.3 节 中 讨论 )。 现 代 计算 机 系统 使 
用 某 种 形式 的 磁盘 作为 二 级 存储 器 。 通 常 ， 存 储 器 以 磁 为 介质 ， 尽 管 有 时 候 也 采用 光盘 或 者 磁 
光盘 。 光 盘 或 磁 光 盘 比 较 便宜 ,但 是 许多 不 支持 在 盘 上 方便 地 写 数据 ， 或 者 根本 就 不 支持 写 数 
据 。 因 此 ， 它 们 一 般 只 用 来 存放 不 需要 改变 的 归档 数据 。 


摩尔 定律 

Gordon Moore 在 很 多 年 以 前 就 发 现 ， 集 成 电路 在 以 多 种 方式 改进 时 ， 其 发 展 速 度 遵 
件 着 指数 曲线 ， 每 18 个 月 就 要 翻 一 香 。 遵 循 摩尔 定律 而 变化 的 一 些 参数 是 ， 

1. 处 理 器 的 速度 ， 即 每 秒 钟 执行 的 指令 数 ， 以 及 处 理 器 的 速度 与 费用 之 比 。 

2. 主 存 的 每 个 二 进 制 位 的 价格 和 可 以 置 于 一 个 芯片 的 二 进 制 位 数 。 

3. 磁盘 每 个 二 进 制 位 的 价格 和 最 大 的 磁盘 容量 。 

另 一 方面 ， 还 有 一 些 不 遵从 摩尔 定律 的 其 他 重要 参数 ， 如 果 它 们 确实 在 增长 的 话 ， 
它们 增长 得 很 慢 。 这 些 缕 慢 增长 的 参数 包括 对 主 存 中 数据 的 访问 速度 ， 或 磁盘 旋转 的 速 
度 等 。 由 于 它们 增长 缓慢 ， 延 迟 便 逐 渐 地 变 得 更 大 。 也 就 是 说 ， 数 据 在 存储 器 层次 各 级 
之 间 移 动 的 时 间 与 计算 所 花 的 时 间 相 比 变 得 越 来 越 长 。 因 此 可 以 预计 ， 在 今后 若干 年 内 ， 
主 存储 器 将 显得 比 高 速 缓存 更 加 远离 处 理 器 ， 而 磁盘 上 的 数据 将 显得 离 处 理 器 更 远 。 实 
际 上 ， 这 些 显而易见 的 “距离 ”所 产生 的 影响 在 2001 年 已 经 相当 严重 。 
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从 图 11-1 中 可 见 ， 磁 盘 被 认为 是 既 支 持 虚 拟 存储 器 ， 也 支持 文件 系统 。 也 就 是 说 ， 在 一 些 
磁盘 块 保存 一 个 应 用 程序 的 虚拟 存储 器 页 面 的 同时 ， 其 他 磁盘 块 用 于 保存 ( 部 分 ) 文件 。 在 
操作 系统 或 数据 库 系统 的 控制 下 ， 文件 以 块 的 方式 在 磁盘 与 主 存 之 间 移 动 。 将 一 个 块 从 磁盘 
移动 到 主 在 是 一 次 磁盘 读 ， 将 一 个 块 从 主 存 移 动 到 磁盘 是 一 次 磁盘 写 。 这 两 种 操作 一 般 称 之 
为 一 次 磁盘 MO。 主 存 的 某 些 部 分 被 用 作文 件 缓冲 区 (buffer )， 即 以 块 大 小 为 单位 保留 这 些 文 
件 的 一 部 分 。 

例如 : 假定 磁盘 块 的 大 小 是 4K 字 节 ， 当 你 为 了 读 而 打开 一 个 文件 时 ， 操 作 系统 可 能 保留 
一 个 4K 大 小 的 主 存 块 作为 这 个 文件 的 缓冲 区 。 开 始 ， 文 件 的 第 一 个 块 被 拷贝 到 缓冲 区 ， 当 应 
用 程序 已 经 用 过 文件 的 那 4K 字 节 时 ， 文 件 的 下 一 个 块 就 被 送 入 缓冲 区 ， 置 换 原 先 的 内 容 。 这 
个 过 程 如 图 11-2 所 示 ， 将 一 直 进行 到 读 完 整个 文件 者 文件 被 关闭 为 止 。 


文件 


缓冲 区 


图 11-2 文件 及 其 主 存 缓冲 区 


DBMS 自 己 管理 磁盘 块 ， 而 不 是 依赖 操作 系统 的 文件 管理 器 在 主 存 和 二 级 存储 器 之 间 移 动 
块 。 可 是 ,不管 是 着 眼 于 文件 系统 还 是 DBMS， 管 理 中 所 涉及 的 问题 本 质 上 是 -一 样 的 。 在 磁盘 
上 读 或 写 一 个 块 大 约 要 花 10 ~ 30 毫 秒 (0.01 ~ 0.03 秒 )。 在 这 段 时 间 内 ， 一 台 普 通 的 机 器 或 许 
能 执行 数 万 条 指令 。 这 样 ， 通 常情 况 下 ， 读 或 写 一 个 磁盘 块 所 花 的 时 间 ， 决 定 了 对 这 个 磁盘 
块 的 内 容 无 论 进行 什么 样 的 操作 所 花费 的 总 时 间 。 因 此 ， 至 关 重 要 的 是 尽 可 能 地 让 含有 需要 
访问 的 数据 所 在 磁盘 块 已 经 在 主 存 缓冲 区 内 。 这 样 就 不 必 付 出 一 次 磁盘 IO 的 代价 。 在 11.4 节 
和 11.5 节 中 将 进一步 讨论 这 个 问题 ， 看 一 些 处 理 在 存储 层次 的 不 同 级 别 之 间 移 动 数据 所 带 来 的 
高 昂 开 销 的 例子 。 

在 2001 年 ， 单 个 磁盘 单元 所 拥有 的 容量 已 达到 100GB 或 者 更 多 。 此 外 ， 机 器 可 以 使 用 多 
个 磁盘 单元 ， 于 是 拥有 数 百 声 的 外 存 的 机 器 在 目前 也 是 有 可 能 的 。 这 样 ， 二 级 存储 器 的 速度 
将 比 一 般 的 内 存 慢 10* 倍 ， 而 容量 则 至 少 比 一 般 内 存 大 100 倍 。 二 级 存储 器 显然 也 要 比 内 存 便 
宜 得 多 。 在 2001 年 ， 磁 盘 单 元 的 价格 是 每 兆 字 节 1 ~ 2 美 分， 与 此 同时 ， 主 存 的 价格 则 是 每 兆 
字 节 1 ~ 2 美元 。 

11.2.5 三 级 存储 器 

磁盘 单元 集合 可 以 使 数据 容量 相当 大 ， 但 是 有 的 数据 库 的 数据 量 要 比 配置 在 单 台 机 器 甚至 
相当 大 的 机 器 集群 上 的 磁盘 所 能 存储 的 容量 还 要 大 得 多 。 例 如 ， 连 锁 零 售 商店 保留 着 太 字 节 数 
量 级 的 有 关 他 们 经 营 情 况 的 数据 ， 而 人 造 卫星 每 年 要 返回 拍 字 节 数 量 级 的 信息 。 

为 了 适应 这 样 的 需求 ， 开 发 出 三 级 存储 器 〈tertiary storage )， 用 以 保存 以 太 字 节 计数 的 数 
据 容 量 。 三 级 存储 器 的 特点 在 于 ， 与 二 级 存储 器 相 比 ， 其 读 / 写 时 间 长 ， 但 是 其 容量 比 磁盘 大 ， 
每 个 字 节 的 费用 也 比 磁盘 少 。 主 存储 器 为 访问 任何 数据 提供 的 访问 时 间 是 不 变 的 ， 访问 磁盘 任 
何 数 据 的 时 间 差 别 仅 取决 于 一 个 较 小 的 因数 ;第 三 级 存储 器 设备 的 访问 时 间 是 一 个 很 宽 的 范 
Hl, 这 取决 于 数据 与 读 / 写 点 靠 得 有 多 近 。 下 面 是 几 种 主要 的 三 级 存储 器 设备 ， 

1. Ad-hoc 磁 带 存 储 器 ( ad-hoc tape storage )。 最 简单 的 ， 而 且 过 去 几 年 中 惟一 一 种 使 用 三 
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级 存储 器 的 方式 ， 是 将 数据 存放 在 磁带 卷 或 盒 式 带 上 ， 并 将 盒 带 存放 在 机 架 中 。 当 想 要 从 三 级 
存储 器 中 获取 信息 时 ， 人 工 操作 员 要 找到 磁带 并 把 磁带 放置 在 磁带 阅读 器 上 。 通 过 磁带 的 卷 动 
找到 信息 的 正确 位 置 , 然后 把 信息 拷贝 到 二 级 存储 器 或 主 存储 器 上 。 为 了 向 三 级 存储 器 写 数 据 ， 
首先 要 找 磁 带 并 将 磁带 定位 到 正确 的 位 置 ， 然 后 再 将 数据 从 磁盘 复制 到 磁带 。 

2. 自动 光盘 机 ( optical-disk juke box )。“ 自 动 光 盘 机 ”由 车 干 个 CD-ROM 架 所 组 成 。CD 是 
“compact disk”( 袖珍 盘 ) 的 缩写 ，ROM 是 “read-only memory”( 只 读 存储 器 ) 的 缩写 。 这 种 
光盘 通常 用 于 分 发 软件 。 光 盘 上 的 二 进 制 位 用 黑 或 白 的 小 区 域 来 表示 ， 所 以 通过 对 这 些 点 投射 
激光 并 看 其 是 否 被 反射 来 读 取 这 些 数 据 位 。 自 动 光盘 机 中 的 自动 机 械 臂 能 快速 选取 任意 一 个 
CD-ROM, 并 且 将 它 送 到 CD 阅读 器 ，CD 中 的 全 部 或 部 分 内 容 就 可 被 读 人 第 二 级 存储 器 。 

3. 磁带 仓 (tape silo )。“ 磁 带 仓 ”是 一 个 房间 大 小 的 设备 ， 其 内 部 有 磁带 机 柜 。 通 过 自动 
机 械 辟 将 要 访问 的 磁带 送 到 多 个 磁带 阅读 器 中 的 一 个 。 因 此 磁带 仓 是 早期 ad-hoc 磁 带 存 储 器 的 
一 种 自动 化 方式 。 由 于 它 使 用 计算 机 编目 控制 和 自动 磁带 检索 过 程 ， 因 此 它 比 人 力 系统 至 少 快 
一 个 数量 级 。 

在 2001 年 盒 式 磁带 的 容量 高 达 50 吉 字 节 ， 因 此 磁带 仓 可 保存 许多 个 太 字 节 的 数据 。CD 的 
标准 容量 大 约 是 2/3 吉 字 节 ， 已 形成 的 下 一 个 标准 规定 大 约 为 2.5 吉 字 节 (DVD )， 并 且 该 标准 
将 逐渐 流行 起 来 。 容 量 在 多 个 太 字 节 范围 内 的 CD-ROM 自 动 光盘 机 也 将 面世 。 

”从 三 级 存储 器 设备 访问 数据 所 花费 的 时 间 从 几 秒 钟 到 几 分 钟 不 等 。 自 动 光 盘 机 或 磁带 仓 中 
的 自动 机 械 豆 可 以 在 几 秒 钟 内 找到 所 要 的 CD-ROM 或 盒 式 带 ， 而 操作 员 很 可 能 要 花 几 分 钟 来 定 
位 和 检索 磁带 。 一 旦 被 装 入 到 阅读 器 中 ， 便 可 以 在 零点 几 秒 钟 内 访问 CD 的 任何 部 分 ,但 是 楼 
把 磁带 的 正确 区 段 移动 到 磁带 阅读 器 的 磁头 下 则 另外 还 要 花 许多 秒 钟 。 

总 的 来 说 ， 访 问 第 三 级 存储 器 比 访问 第 二 级 存储 器 大 约 要 慢 1000 倍 《〈 毫秒 与 秒 的 比值 )。 
然而 ， 单 个 的 第 三 级 存储 器 单元 的 容量 可 以 比 第 二 级 存储 器 设备 大 1000 倍 ( 吉 字 节 与 太 字 节 
的 比值 )。 图 11-3 按 双 对 数 度量 显示 了 在 已 经 研究 过 的 4 个 级 别 存储 器 层次 中 ， 访 问 时 间 与 容 
量 之 间 的 关系 。Zip 盘 和 软盘 (塑料 磁盘 ) 是 很 普遍 的 存储 设备 ， 尽 管 它们 不 是 通常 用 于 数据 
库 系统 的 第 二 级 存储 器 ， 但 在 此 也 将 它们 包括 进来 。 在 图 11-3 中 ， 横 轴 是 用 来 度量 秒 的 10 的 
指数 ， 例 如 ，-3 的 意思 是 10-? 秒 ， 或 者 说 1 毫秒 。 纵 铀 是 用 来 度量 字 节 的 10 的 指数 ， 例如 ，8 
代表 100 兆 字 节 。 
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图 11-3 存储 器 层次 中 各 个 级 别 的 访问 时 间 与 容量 关系 
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11.26 易 失 和 非 易 失 存储 器 

区 别 存 储 设备 的 另外 一 个 特性 是 ， 存 储 在 其 上 的 数据 是 易 失 的 还 是 非 易 失 的 。 一 个 易 失 的 
设备 ， 当 切断 电源 时 ， 会 “忘记 ” 它 所 存储 的 数据 。 但 是 ， 一 个 非 易 失 的 设备 ， 当 设备 被 关闭 
或 电源 发 生 故 障 时 ， 可 期 望 保持 它 的 内 容 完整 无 缺 ， 甚 至 长 期 保存 。 易 失 性 问题 是 一 个 很 重要 
的 问题 ， 因 为 DBMS 颇 具 特 色 的 性 能 之 一 就 是 ， 即 便 在 发 生 电 源 故障 等 错误 情况 下 仍 有 能 力 保 
留 其 数据 。 

磁 材 料 在 没有 电 的 情况 下 仍 能 保持 其 磁性 ， 因 此 ， 磁 盘 、 磁 带 这 样 的 设备 是 非 易 失 的 。 同 
样 ， 光 学 设备 如 CD ， 即 使 在 没有 电 的 情况 下 ， 仍 然 保留 在 其 上 所 刻录 的 黑白 圆 点 。 的 确 ， 对 
于 许多 设备 来 说 ， 没 有 方法 改变 写 在 其 表面 的 内 容 。 因 此 ， 所 有 二 级 存储 器 和 三 级 存储 器 设备 
在 本 质 上 都 是 非 易 失 的 。 

另 一 方面 ， 主 存储 器 通常 属于 易 失 的 存储 设备 。 如 果 人 允许 二 进 制 位 的 值 在 一 分 钟 后 降低 ， 
那么 存储 器 芯片 就 可 以 设计 成 比较 简单 的 电路 ， 这 种 简单 性 可 降低 芯片 每 一 位 的 成 本 。 实 际 的 
情况 是 ， 代 表 一 个 二 进 制 位 的 电荷 会 缓慢 地 流出 贡献 给 那个 位 的 区 域 。 结 果 ， 被 称 为 动态 随机 
访问 存储 器 (DRAM ) 的 芯片 需要 对 整个 内 容 周期 性 地 读 和 写 。 如 果 切 断 电源 ， 这 种 刷新 就 不 
会 发 生 ， 芯 片 也 就 很 快 丢失 它 所 存储 的 内 容 。 

运行 在 配置 了 易 失主 存 的 机 器 上 的 数据 库 系统 在 认定 将 要 改变 数据 是 数据 库 的 一 一 部 分 之 
前 ， 必 须 先 将 改变 的 数据 备份 到 磁盘 上 ， 否 则 就 会 有 因 电 源 故障 而 丢失 信息 的 危险 。 因 此 ， 
查询 和 修改 数据 库 必然 要 涉及 到 大 量 的 磁盘 写 操作 。 如 果 无 需 在 任何 时 候 都 保留 所 有 的 信息 ， 
那 就 可 以 避免 某 些 写 磁盘 操作 。 一 个 可 供 选 择 的 方法 是 使 用 一 种 非 易 失 的 主 存储 器 。 一 种 被 
称 做 快 闪存 储 器 ( flash memory ) 的 新 型 存储 器 芯片 就 是 非 易 失 的 ， 它 的 价格 正在 变 得 越 来 越 
便宜 。 另 外 一 种 可 供 选 择 的 方法 是 用 一 般 的 存储 器 芯片 建立 一 种 RAM 盘 ， 用 电池 组 作为 它 的 
主 电源 的 后 备 。 

11.2.7 习题 

习题 11.2.1 ”假定 在 2001 年 ， 普 通 的 计算 机 有 一 个 主 频 为 1500MHz 的 处 理 器 ， 有 一 个 

40GB 硬 盘 以 及 容量 为 100MB 的 主 存储 器 。 假 设 摩尔 定律 ( 这些 参数 每 18 个 月 翻 一 番 ) 无 

限期 有 效 。 

* a) 什么 时 候 太 字 节 磁盘 将 成 为 通用 存储 设备 ? 

b) 什么 时 候 吉 字 节 主 存 将 成 为 通用 存储 设备 ? 
c) 什么 时 候 太 赫 兹 处 理 器 将 成 为 通用 存储 处 理 器 ? 
d) 到 2008 年 ， 什 么 样 的 配置 ( 处 理 器 、 磁 盘 、 主 存 ) 将 成 为 典型 的 配置 ? 
! 习题 11.2.2 ”来 自 24 世 纪 Trek 星 球 上 的 下 一 代 机 器 人 德 特 骄 傲 地 宣布 ， 他 的 处 理 器 以 “12 太 
次 操作 / 秒 ” 的 速度 运行 。 尽 管 一 次 操作 与 一 个 周期 可 以 不 同 ， 但 在 此 假定 它们 是 相同 的 ， 
并 且 摩 尔 定律 在 未 来 300 年 依然 有 效 。 如 果 是 这 样 ， 德 特 的 处 理 器 的 真正 速度 是 多 少 ? 


11.3 磁盘 


使 用 二 级 存储 器 是 数据 库 管理 系统 的 重要 特性 之 一 , 而 二 级 存储 器 几乎 无 例外 的 基于 磁盘 。 
这 样 ， 为 了 给 出 DBMS 实 现 中 采用 的 许多 思想 的 理由 ， 必 须 详细 地 研究 磁盘 操作 。 
11.3.1 磁盘 结构 

图 11-4 给 出 了 磁盘 驱动 器 的 两 个 主要 移动 部 件 ; 一 个 是 磁盘 组 合 (disk assembly )， 另 一 个 
是 磁头 组 合 ( head assembly )。 磁 盘 组 合 由 一 个 或 多 个 圆 形 的 盘 片 (platter ) 组 成 ， 它 们 绕 着 一 
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根 中 心 主轴 旋转 。 圆 盘 的 上 表面 和 下 表面 覆盖 了 一 层 薄 薄 的 磁性 材料 ， 二 进 制 位 存储 在 这 些 磁 
性 材料 上 。0 是 通过 在 一 个 方向 上 定向 磁化 的 一 个 小 区 域 表 示 ， 而 1 则 是 通过 在 相反 方向 上 定向 
磁化 的 一 个 小 区 域 表 示 。 尽 管 直径 从 一 英寸 到 几 英 斥 的 磁盘 都 已 经 制造 出 来 了 ， 但 盘 片 的 直径 
一 般 是 3.5 英 寸 。 





图 11-4 一 个 典型 的 磁盘 


将 二 进 制 位 的 存储 位 置 规划 成 磁道 【track )， 磁 道 是 单个 盘 片上 的 同心 圆 。 如 同 从 图 11-5 
的 俯视 图 可 以 看 到 ， 除 了 最 靠近 主轴 的 区 域外 ,磁道 占据 了 大 部 分 盘面 。 磁 道 由 许多 个 点 组 成 ， 
每 一 个 点 代表 一 个 由 它 的 磁化 方向 决定 的 二 进 制 位 。 

磁道 被 规划 成 扇 区 (sector )。 户 区 是 被 间 际 
(gap) 分 割 的 圆 的 片断 ， 间 隙 在 两 个 方向 上 均 不 被 
磁化 。 对 于 读 写 磁盘 来 说 ， 扇 区 是 不 可 分 割 的 单 
位 。 对 于 磁盘 错误 来 说 ， 扇 区 也 是 一 个 不 可 分 割 的 
单位 。 如 果 一 部 分 磁化 层 被 损坏 ， 以 致 它 不 再 能 存 
储 信息 ， 那 么 包含 这 个 部 分 的 整个 肩 区 也 不 能 再 使 
用 。 间 踊 大 约 占 整 个 磁道 的 10% ， 用 于 帮助 标识 扇 
区 的 起 点 。 在 11.2.3 节 中 所 提 到 的 “ 块 "， 是 在 磁盘 
与 主 存 之 间 传 输 数据 的 逻辑 单元 ， 由 一 个 或 多 个 扇 
区 组 成 。 

图 11-4 中 的 第 二 个 可 移动 部 件 是 磁头 组 合 ， 它 承载 着 磁头 。 每 一 个 盘面 有 一 个 磁头 ， 它 县 
浮 在 盘面 上 ， 与 盘面 紧密 相 邻 ， 但 是 绝对 不 与 盘面 接触 ( 否则 就 要 发 生 “ 磁 头 损毁 ”， 盘 片 和 
存储 在 它 上 面 的 一 切 数据 都 被 破坏 )。 磁 头 读 出 位 于 它 下 方 的 盘面 的 磁化 方向 , 也 能 改变 其 磁化 
方向 ， 以 便 在 磁盘 上 写 信息 。 每 个 磁头 被 固定 在 一 个 磁头 臂 上 ， 所 有 盘面 的 磁头 随 着 磁头 臂 一 





”图 11-5 磁盘 的 俯视 图 


o ”在 图 11-5 中 ， 用 相同 的 扇 区 数 显示 每 一 个 磁道 。 然而 ， 正 如 将 在 例 11.3 中 所 讨论 的 ， 每 个 磁道 的 扇 区 数 可 
以 不 同 ， 靠 外 圈 磁 道 的 篇 区 数 比 靠 内 图 磁道 的 扁 区 数 多 。 
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同 移 进 移出 ， 磁 头 臂 是 固定 的 磁头 组 合 的 一 部 分 。 
11.3.2 磁盘 控制 器 
一 个 或 多 个 磁盘 驱动 器 被 一 个 磁盘 控制 器 (disk controller ) 所 控制 ， 磁 盘 控制 器 是 一 个 小 
处 理 器 ， 具 有 如 以 下 功能 : 
1. 控制 移动 磁头 组 合 的 机 械 传动 装置 ， 将 磁头 定位 到 一 个 特定 的 半径 。 在 该 半径 位 置 ， 每 
个 盘面 都 有 一 个 磁道 处 于 那个 盘面 的 磁头 之 
下 ， 使 该 磁道 可 读 可 写 。 同 一 时 刻 位 于 磁头 处 理 器 
下 的 各 个 磁道 构成 了 一 个 柱 面 (cylinder ), 
2. 选择 一 个 准备 读 写 的 盘面 ， 并 从 位 于 
该 盘面 的 磁头 下 的 磁道 上 选择 一 个 扇 区 。 控 二 一 一 一 一 一 一 一 一 一 一 
制 器 还 负责 识别 旋转 主轴 到 达 定 点 的 时 刻 ， 
在 此 定点 位 置 ， 所 寻 扇 区 在 磁头 下 开始 移动 。 
3. 将 从 所 寻 扇 区 读 取 的 二 进 制 位 传送 到 
计算 机 的 主 存 ， 或 者 将 从 主 存储 器 写 人 的 二 
进 制 位 传送 到 所 期 望 的 扇 区 。 
图 11-6 给 出 了 一 台 简 单 的 单 处 理 器 计算 
机 的 示意 图 。 处 理 器 经 由 数据 总 线 与 主 存储 
器 和 磁盘 控制 器 进行 通信 。 一 个 磁盘 控制 器 
能 够 控制 多 个 磁盘 ， 在 这 个 示意 图 中 计算 机 
有 三 个 磁盘 。 图 11-6 一 个 简单 计算 机 系统 示意 图 
11.3.3 磁盘 存储 特性 
磁盘 技术 处 于 不 断 变 化 之 中 ， 存 储 一 个 二 进 制 位 所 需要 的 空间 在 迅速 减少 。 在 2001 年 ,与 
磁盘 相关 的 一 些 典 型 参数 是 : 
* 磁盘 组 合 的 旋转 速度 。5400 RPM ( 转 /分 钟 )， 即 每 11 毫 秒 旋转 一 周 。 这 只 是 常见 的 转速 ， 
虽然 再 高 一 些 或 低 一 些 的 转速 也 都 有 。 
“每 个 磁盘 的 盘 片 数 。 一 般 的 磁盘 驱动 莫大 约 有 5 个 盘 片 ， 因 此 有 10 个 盘面 。 然 而 普通 的 
“ 软 ” 盘 或 “Zip” 盘 只 有 一 个 盘 片 ， 两 个 面 。 带 有 多 达 30 个 盘面 的 磁盘 驱动 器 已 经 出 现 。 
“每 个 盘面 的 磁道 数 。 一 个 盘面 可 以 有 多 达 20 000 个 磁道 ， 而 软盘 的 磁道 数 要 少 得 多 。 参 
见 例 11.4。 
“每 个 磁道 的 字 节 数 。 一 般 的 磁盘 存储 器 ， 每 个 磁道 有 大 约 有 一 百 万 个 字 节 ， 但 软盘 磁道 
所 保存 的 字 节 数 要 少 得 多 。" 如 前 已 说 明 的 ， 磁 道 被 分 成 启 区 。 图 11-5 显 示 出 每 个 磁道 有 
12 个 扇 区 ， 但 是 实际 上 现在 磁盘 的 每 个 磁道 的 扇 区 数 可 以 多 达 500 个 。 每 个 扇 区 可 能 有 数 
二 个 字 节 。 





总 线 





扇 区 与 块 的 比较 
Hitt, “BR” 是 磁盘 的 物理 单元 ， 而 “ 块 ” 则 是 使 用 磁盘 的 软件 系统 一 一 例如 操 
作 系统 或 者 DBMS 一 一 所 建立 的 逻辑 单元 。 正 如 我 们 已 经 提 到 过 的 ， 目 前 一 般 的 块 至 少 有 


扇 区 那么 大 ， 块 由 一 个 或 多 个 扁 区 组 成 。 然 而 ， 没有 任何 理由 来 解释 为 什么 块 不 能 是 一 个 
扇 区 的 一 小 部 分 ， 即 不 能 将 若干 个 块 挤 压 到 一 个 扁 区 中 。 实 际 上 ， 一 些 较 老 的 系统 采用 过 
这 种 存储 策略 。 
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$11.3 Megatron 747 磁 盘 是 一 种 2001 年 出 品 的 较 大 型 驱动 器 ， 它 具有 下 列 特性 

*。 8 个 盘 片 ，16 个 盘面 。 

* 每 个 盘面 有 2* 即 16 384 个 磁道 。 

* 每 个 磁道 平均 有 27 = 128 个 肩 区 。 

。 每 个 肩 区 有 2 = 4096 个 字 节 。 

整个 磁盘 容量 是 :16 个 盘面 ， 乘 以 16 384 磁 道 ， 乘 以 128 扇 区 ， 再 乘 以 4096 字 节 的 乘积 ， 
即 23 字 节 。 这 样 Megatron 747 就 是 一 块 128GB 的 磁盘 。 一 个 磁道 存放 128 x 4096 字 节 ， 或 
512KB。 如 果 一 个 块 的 容量 是 2? 即 16 384 字 节 ， 那 么 一 个 块 使 用 4 个 连续 的 扇 区 ， 一 个 磁道 上 
有 128/4 = 32 个 块 。 

Megatron 747 盘 面 的 直径 是 3.5 英 寸 。 磁 道 位 于 盘面 靠 外 1 英寸 的 区 域 ， 靠 内 的 0.75 英 寸 区 
域内 没有 磁道 。 径 向 位 密度 是 每 英寸 16 384 位 ， 因 为 这 就 是 磁道 数 。 

环绕 位 道 的 位 密度 要 大 得 多 。 首 先 假定 ， 每 个 磁道 平均 有 128 个 扇 区 。 假 设 间隙 占据 磁道 
的 10%， 这 样 每 个 磁道 为 512KB( 或 4M 二 进 制 位 )， 占 据 磁道 的 90%。 最 外 圈 的 磁道 长 度 是 
3.57 即 大 约 11 英 寸 。 这 个 距离 的 90% 即 大 约 9.9 英 寸 ， 存 放 4 兆 位 。 因 此 ， 磁 道 占据 部 分 的 位 密 
度 大 约 是 每 英寸 420 000 位 。 

男 一 方面 ， 最 内 图 磁道 的 直径 仅 为 1.5 英 寸 ， 在 0.9 x 1.5 x rx， 即 大 约 4.2 英 寸 的 长 度 上 也 要 
存放 4 兆 位 。 这 样 ， 内 圈 磁 道 的 位 密度 大 约 是 每 英寸 1 兆 位 。 

如 果 扇 区 数 和 位 数 保持 相同 ， 磁 道内 圈 密 度 与 外 圈 密 度 就 会 相差 得 太 远 。 与 现在 其 他 的 磁 
盘 驱 动 器 一 样 ，Megatron 747 的 外 圈 磁 道 比 内 圈 磁 道 存 储 更 多 的 扇 区 。 例 如 ， 对 于 磁盘 的 中 间 
13 磁 道 部 分 ， 每 个 磁道 存放 128 个 扇 区 。 在 靠 内 的 1/3 磁 道 部 分 ， 每 个 磁道 存放 96 个 扁 区 。 而 靠 
外 的 1/3 磁 道 部 分 ， 每 个 磁道 存放 160 个 扇 区 。 如 果 这 样 做 ， 那 么 在 最 内 图 磁道 到 最 外 圈 磁 道上 
每 英寸 的 位 密度 位 于 $30 000 ~ 742 000 之 间 。 口 


例 11.4 ”磁盘 中 的 低 端 产品 是 标准 的 3.5 英 寸 软盘 。 它 有 两 个 面 ， 每 面 40 个 磁道 ， 总 计 80 个 
磁道 。 格 式 化 成 MAC 格 式 或 者 PC 格式 后 ， 这 个 磁盘 大 约 能 容 下 1.5MB 数 据 ， 或 者 说 每 个 磁道 
中 有 150 000 个 二 进 制 位 (18 750 字 节 )。 大 约 有 1/4 可 用 空间 被 间隙 和 其 他 的 格式 化 (无 论 哪 种 
格式 化 ) 开销 所 占据 。 口 


11.3.4 磁盘 访问 特性 

在 数据 库 管 理 系统 的 研究 中 ， 不 仅 要 理解 数据 在 磁盘 中 存储 的 方法 ， 而 且 要 理解 其 操纵 的 
方法 。 由 于 所 有 计算 都 在 主 存 或 高 速 缓存 中 进行 ， 关 于 磁盘 ， 我 们 一 般 关 心 的 惟一 问题 是 如 何 
在 磁盘 与 主 存 之 间 移 动 数据 块 。 正如 113.2 节 所 级 述 的 ， 在 下 述 情况 下 进行 块 (或 者 说 组 成 块 
的 连续 肩 区 ) 的 读 或 写 : 

a) 磁头 被 定位 到 包含 目标 块 的 磁道 所 在 的 柱 面 。 

b) 在 整个 磁盘 组 合 转动 时 ， 组 成 该 块 的 扇 区 移动 到 磁头 下 面 。 

从 发 出 读 块 命令 的 时 刻 起 ， 到 块 的 内 容 出 现在 主 存 中 ， 其 间 所 花费 的 时 间 称 为 磁盘 的 延迟 
时 间 (latency )。 这 个 时 间 可 以 细 划 分 为 如 下 几 部 分 : 

1. 处 理 器 和 磁盘 控制 器 处 理 请 求 所 花费 的 时 间 , 通常 是 零点 几 毫秒 , 这 个 时 间 将 忽略 不 计 。 
同时 还 将 忽略 由 于 争 用 磁盘 控制 器 〈 同一 时 刻 其 他 进程 可 能 正在 读 写 磁 盘 ) 所 花费 的 时 间 ， 并 
且 忽 略 由 于 诸如 争 用 总 线 等 原因 所 引起 的 其 他 延 时 。 

2. 寻 道 时 间 (〈seek time): 将 磁头 组 合 定位 到 合适 柱 面 所 花费 的 时 间 。 如 果 磁 头 恰巧 是 在 
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合适 的 柱 面 上 ， 导 道 时 间 就 是 9。 如 果 不 是 ， 那么 
磁头 就 需要 一 些 时 间 去 开始 移动 和 再 次 停 下 来 ， anA 
再 加 上 与 磁头 移动 距离 大 致 成 正比 的 一 段 附加 时 
间 。 通 常 的 最 小 寻 道 时 间 ， 从 起 动 、 移 过 一 个 磁 
道 ， 再 停 住 ， 大 约 是 几 毫 秒 。 最 长 寻 道 时 间 ， 即 
磁头 要 跨越 所 有 的 磁道 ， 大 约 是 在 10 ~ 40 毫 秒 的 
范围 内 。 图 11-7 给 出 了 寻 道 时 间 如 何 随 距离 而 变 1 最 大 
化 。 该 图 表明 ， 寻 道 时 间 开始 于 某 个 值 x ( 跨越 一 eames 
个 柱 面 距离 的 时 间 )， 并 且 显示 ， 最 大 寻 道 时间 是 on 
在 3 ~ 20x 的 范围 内 。 平 均 寻 道 时 间 经 常 被 用 来 作 图 11-7 导 道 时 间 随 行进 距离 而 变化 
为 标识 磁盘 速度 特征 的 一 种 度量 。 例 11.5 将 讨论 如 何 计算 该 平均 值 。 

3. 旋转 延迟 〈rotational latency); 磁盘 转动 到 组 成 该 块 的 第 一 个 启 区 到 达 磁 头 时 所 需要 的 
时 间 。 常 用 的 硬盘 大 约 每 10 毫 秒 完整 地 转动 一 周 。 平 均 来 说 ， 当 磁头 到 达 目 标记 区 的 柱 面 时 ， 
该 扇 区 大 约 要 转 半 周 ， 所 以 平均 转动 延迟 在 5 毫秒 左右 。 图 11.8 图 示 了 旋转 延迟 问题 。 





图 11-8 旋转 延迟 的 原因 


4. 传 给 时 间 (transfer time): 块 的 扇 区 以 及 各 启 区 之 间 的 间隙 旋 转 通 过 磁头 所 需要 的 时 间 。 
如 果 磁 盘 每 个 磁道 有 大 约 250 000 字 节 ， 大 约 在 10 毫 秒 内 旋转 一 周 ， 每 秒 钟 大 约 能 够 从 磁盘 读 
取 25 兆 字 节 。16 384 字 节 块 的 传输 时 间 大 约 是 2/3 毫 秒 。 
例 11.5 ”考察 从 Megatron 747 磁 盘 读 取 16 384 字 节 所 花费 的 时 间 。 首 先 需 要 知道 磁盘 的 时 
间 属 性 : 
* 磁盘 以 每 分 钟 7200 转 的 速度 旋转 ， 即 8.33 毫 秒 内 旋转 一 周 。 
“在 柱 面 之 间 移 动 磁头 组 合 ， 从 起 动 到 停止 需要 1 毫秒 ， 每 移动 1000 个 柱 面 另 加 1 毫秒 。 这 
样 ， 磁 头 在 1.001 毫 秒 内 移动 一 个 磁道 ， 从 最 内 图 移动 到 最 外 图， 移 过 16 383 条 磁道 大 约 
用 时 17.38 毫 秒 。 
计算 一 下 读 取 16 384 字 节 块 的 最 小 、 最 大 和 平均 时 间 。 由 于 忽略 了 因 使 用 控制 器 而 引起 的 
额外 开销 和 争 用 ， 所 以 最 小 时 间 就 是 传输 时 间 。 也 就 是 说 ， 磁 头 已 经 定位 在 块 所 在 的 磁道 上 ， 
而 且 块 的 第 一 个 扇 区 即将 从 磁头 下 面 通过 。 
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由 于 Megatron 747 的 每 个 扇 区 有 4096 字 节 〈 见 例 11.3 关 于 磁盘 的 物理 规格 说 明 )， 所 以 该 块 
要 占用 4 个 扇 区 。 为 此 ， 磁 头 必 须 越过 4 个 扇 区 和 扇 区 之 间 的 3 个 间隙 。 回 忆 一 下 ， 间 院 占 圆周 
的 10 和 % ， 而 扇 区 占 其 余 的 90%。 围 绕 着 圆周 有 128 个 间 院 和 128 个 扇 区 。 由 于 间隙 合 在 一 起 覆盖 
36 度 圆 弧 ， 而 扇 区 覆盖 其 余 的 324 度 圆 弧 ， 所 以 被 3 个 间隙 和 4 个 扇 区 覆盖 的 圆 弧 的 总 度数 为 ; 
3 


4 
36 x Tg + 324x Tag = 10.97 


传输 时 间 是 (10.97/360 ) x 0.008 33 = 0.000 253 秒 ， 即 1/4 毫 秒 。 也 就 是 说 10.97/360 是 读 取 整 
个 块 所 需 的 旋转 时 间 ，0.008 33 秒 是 旋转 360 度 所 需 的 时 间 。 

现在 来 看 一 下 读 该 块 的 最 大 可 能 时 间 。 在 最 坏 的 情况 下 ， 磁 头 被 定位 在 最 内 圈 柱 面 ， 而 要 
读 的 块 是 在 最 外 圈 柱 面 上 (或 者 相反 )。 这 样 ， 控 制 器 必须 做 的 第 一 件 事 就 是 移动 磁头 。 正 如 
前 面 已 经 知道 和 的， 移动 Megatron 747 磁 头 跨 越 全 部 柱 面 所 花费 的 时 间 大 约 是 17.38 毫 秒 。 这 个 数 
量 就 是 读 盘 的 寻 道 时 间 。 

当 磁 头 到 达 正 确 的 柱 面 时 , 可 能 出 现 的 不 理想 情形 是 , 所 需 块 的 起 点 刚好 从 磁头 下 面 越过 。 
假定 必须 从 块 的 起 点 开始 读 ， 那 么 实际 上 就 必须 等 待 完整 一 圈 的 时 间 ， 或 者 说 8.33 毫 秒 ， 使 块 
的 起 点 再 次 到 达 磁 头 下 ， 还 必须 等 待 读 整 个 块 的 0.25 训 秒 的 传输 时 间 。 这 样 ， 最 坏 情 况 下 的 延 
WRAY |B] 17.38 + 8.33 + 0.25 = 25.96 毫 秒 。 

最 后 来 计算 读 一 个 块 的 平均 时 间 。 延 迟 时 间 的 两 部 分 很 容易 计算 : 传输 时 间 总 是 0.25 毫 秒 ， 
平均 旋转 延迟 时 间 是 磁盘 旋转 半 周 所 需要 的 时 间 ， 即 4.17 毫 秒 。 可 以 假定 ， 平 均 寻 道 时 间 正 好 是 
越过 一 半 磁 道 所 需要 的 时 间 。 然 而 ， 这 样 计算 并 不 很 准确 ， 因 为 通常 磁头 起 初 是 位 于 中 间 位 置 
附近 的 某 个 位 置 ， 因 此 平均 来 说 ， 磁 头 到 达 所 要 求 柱 面 需 移动 的 距离 小 于 跨越 一 半 磁 道 的 距离 。 

更 为 详细 的 估算 磁头 必须 移动 的 平均 磁道 数 可 按 如 下 方法 获得 。 假 设 磁头 起 初 以 相同 的 概 
率 被 定位 在 16 384 个 柱 面 上 的 任 一 位 置 。 如 果 是 在 柱 面 1 或 柱 面 16 384, 那么 要 移动 的 平均 磁道 
数 是 (1+2+…+16 383) / 16 384， 即 大 约 8192 道 。 如 果 是 在 柱 面 8192， 即 中 间 位 置 ， 则 磁头 移 
进 或 移出 的 可 能 性 相同 ， 而 且 无 论 移 进 还 是 移出 ， 移 动 距离 平均 来 说 大 约 都 是 总 磁道 数 的 四 分 
之 一 ， 即 4096 磁 道 。 计 算 表 明 ， 当 磁头 的 初始 位 置 从 柱 面 1 到 柱 面 8192 变 化 时 ， 磁 头 需要 移动 
的 平均 距离 从 8192 到 4096 按 二 次 方 曲线 减少 。 同 样 ， 当 磁头 的 初始 位 置 从 柱 面 8192 变 化 到 柱 面 
16 384 时 ， 磁 头 需要 移动 的 平均 距离 按 二 次 方 曲线 回升 到 8192， 如 图 11.9 所 示 。 


磁盘 控制 器 结构 的 发 展 趋势 

由 于 数字 硬件 价格 的 急剧 下 跌 ， 磁 盘 控制 器 开始 变 得 越 来 越 像 它们 自己 的 计算 机 ， 
拥有 通用 处 理 器 和 相当 大 的 随机 访问 存储 器 。 借 助 这 样 的 附加 硬件 可 以 做 许多 事情 ， 磁 
盘 控 制 器 可 将 磁盘 的 全 部 磁道 读 出 并 存 入 它们 的 本 地 存储 器 中 ， 即 使 只 从 硫 道 中 请 求 一 
个 块 也 如 此 。 当 需要 访问 单一 磁道 的 全 部 或 大 部 分 决 时 ， 这 种 能 力 大 大 减少 了 对 决 的 平 
均 访问 时 间 。11.5.1 节 将 讨论 全 磁道 或 全 柱 面 的 读 写 应 用 。 


如 果 把 图 11-9 中 的 参数 对 所 有 初始 位 置 积 分 ， 就 会 发 现 ， 行 进 的 平均 距离 是 跨越 磁盘 路 程 


的 三 分 之 一 ,或 者 说 是 5461 个 柱 面 。 也 就 是 说 ， 平 均 寻 道 时 间 是 一 微 秒 加 上 跨越 5461 磁 道 的 时 
间 ， 即 1 + 5461/1000 = 6.46 毫 秒 ? 。 测 算 的 平均 延迟 时 间 为 :6.46 + 4.17 + 0.25 = 10.88 毫 秒 。 









O 这 个 计算 忽略 了 完全 不 移动 磁头 的 可 能 性 ， 但 是 在 假设 的 16 384 次 随机 块 请 求 中 ， 那 种 情况 只 发 生 一 次 。 
另 一 方面 ， 正 如 将 在 11.5 节 中 所 见 到 的 ， 随 机 块 请 求 并 不 是 一 种 必需 的 好 的 假设 。 
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这 三 项 依次 代表 平均 寻 道 时 间 、 平 均 旋 转 延 迟 时 间 和 传输 时 间 。 口 
8129 
平均 行进 
距离 
4096 
0 
0 8129 16 348 
起 始 磁道 


Cn 


图 11-9 平均 行进 距离 是 磁头 初始 位 置 的 函数 


11.3.5 块 的 写 操 作 
用 最 简单 的 方式 写 一 个 块 的 过 程 与 读 一 个 块 的 过 程 非常 类 似 。 磁 头 被 定位 在 合适 的 柱 面 上 
后 ,等 待 合适 的 扇 区 转 到 磁头 下 面 。 只 不 过 这 时 是 用 磁头 写 入 新 数据 ， 而 不 是 读 磁 头 下 的 数据 。 
最 大 、 最 小 和 平均 写 人 时 间 与 相应 的 读 出 时 间 完 全 相同 。 
如 果 想 要 检测 块 的 写 和 是否 正确 ， 情 况 将 会 变 得 复杂 起 来 。 因 为 这 样 做 需要 等 待 一 次 附加 
的 旋转 ， 并 且 要 回 读 每 一 个 扇 区 ， 以 检查 写 人 的 数据 是 否 确 实 存储 在 那里 。11.6.2 节 中 将 讨论 
通过 使 用 校 验 和 来 检测 写 人 是否 正 确 的 一 个 简单 方法 。 
11.3.6 块 的 修改 
”不 可 能 直接 修改 磁盘 上 的 一 个 块 。 而 且 ， 即 使 是 只 想 修 改 少 量 字 节 ( 例如 存储 在 块 上 的 若 
干 元 组 之 一 的 一 个 分 量 )， 也 必须 做 如 下 几 项 工作 : 
1. 将 块 读 人 主 存储 器 。 
2. 对 主 存储 器 中 块 的 副本 做 出 所 要 求 的 修改 。 
3. 将 块 的 新 内 容 回 写 到 磁盘 。 
4. 如 果 合 适 ， 检 查 写 操作 是 否 被 正确 执行 。 
块 修改 的 总 时 间 是 这 样 一 些 时 间 的 和 : 读 的 时 间 、 在 主 存储 器 中 执行 更 新 的 时 间 〈 这 个 时 
间 与 读 写 磁盘 的 时 间 相 比 通常 可 以 忽略 不 计 )、 写 的 时 间 ， 如 果 执 行 校 验 的 话 ， 还 有 磁盘 的 另 
一 次 旋转 时 间 9。 
11.3.7 习题 
习题 11.3.1 Megatron 777 磁 盘 具 有 以 下 特性 : 
1) 有 10 个 盘面 ， 每 个 盘面 有 10 000 个 磁道 。 
2) 磁道 平均 有 1000 个 扇 区 ， 每 个 肩 区 是 512 字 节 。 
3) 每 个 磁道 的 20% 用 于 间隙。 


O ”现在 可 能 想 知道 写 和 人 刚刚 读 过 的 块 的 时 间 是 否 与 执行 一 次 “随机 的 ” 块 写 和 的 时 间 相同 。 如 果 磁 头 停留 
在 它们 所 在 的 位 置 ， 那 么 已 经 知道 ， 必 须 等 待 一 次 完整 的 旋转 时 间 来 写 , 但 是 寻 道 时 间 为 零 。 然 而 ,由 
于 磁盘 控制 器 不 知道 应 用 程序 何 时 将 完成 写 块 的 新 值 ， 在 写 块 的 新 值 的 请 求 被 执行 之 前 ， 磁 头 可 能 已 经 
移动 到 男 一 个 磁道 去 执行 另外 一 些 磁盘 1/0。 
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“4) 磁盘 转速 是 10 000% /分钟 。 
5) 磁头 移动 x 个 磁道 所 需要 的 时 间 是 1+ 0.001n 毫 秒 。 

回答 下 列 有 关 Megatron 777 的 问题 ; 

* a) 磁盘 的 容量 是 多 少 ? 

b) 如 果 所 有 的 磁道 都 拥有 相同 的 扁 区 数 ， 那 么 一 个 磁道 扁 区 中 的 位 密度 是 多 少 ? 

c) 最 长 寻 道 时 间 是 多 少 ? 

d) 最 长 旋转 延迟 时 间 是 多 少 ? 

e) 如 果 一 个 块 是 16 384 字 节 ( 即 32 遍 区 )， 一 个 块 的 传输 时 间 是 多 少 ? 

D 平均 寻 道 时 间 是 多 少 ? 

g) 平均 旋转 延迟 时 间 是 多 少 ? 

习题 11.3.2 ”假设 Megatron 747 磁 道 的 磁头 位 于 磁道 2048， 即 在 跨越 磁道 行程 的 118 处 。 并 

假设 下 一 个 请 求 是 针对 随机 磁道 上 的 一 个 块 。 计 算 读 这 个 块 的 平均 时 间 。 

习题 11.3.3 ”在 例 11.5 的 末尾 ， 计 算 了 磁头 从 一 个 随机 选取 的 磁道 移动 到 另 一 个 随机 选取 

的 磁道 之 间 的 平均 距离 ， 并 且 发 现 ， 该 距离 为 总 磁道 数 的 1/3。 假 设 每 个 磁道 的 扇 区 数 与 

磁道 的 长 度 (或 半径 ) 成 反比 ， 那 么 所 有 磁道 的 位 密度 相同 。 另 外 又 假设 ,需要 将 磁头 从 

一 个 随机 的 肩 区 移动 到 另 一 个 随机 的 扇 区 。 由 于 扇 区 倾向 于 聚集 在 磁盘 的 外 侧 ， 所 以 可 以 

期 待 磁头 平均 移动 距离 小 于 跨越 磁道 行程 的 13。 就 像 Megatron 747 一 样 ， 假 设 磁道 占据 从 

0.7 5 ~ 1.75 英 寸 的 半径 范围 ， 计 算 磁头 在 两 个 随机 扇 区 之 间 移 动 时 跨越 的 平均 磁道 数 。 

! 习题 11.3.4 ” 例 11.3 的 末尾 曾 建议 ， 如 果 将 磁道 分 成 三 个 区 域 ， 在 每 个 区 域 设置 不 同 的 扇 
区 数 ， 就 可 以 减 小 磁道 的 最 大 密度 。 如 果 三 个 区 域 之 间 的 划分 可 以 在 任何 半径 上 进行 ， 每 
个 区 域 的 扇 区 数 可 以 不 同 ， 而 且 惟 一 的 约束 条 件 是 在 一 个 盘面 的 16 384 个 磁道 上 的 总 字 节 
数 为 8GB ， 如 何 选择 这 5 个 参数 (区 域 之 间 两 个 划分 的 半径 ， 以 及 三 个 区 域 中 ， 每 个 区 域 
的 每 个 磁道 的 扇 区 数 ) 使 得 任何 磁道 的 最 大 密度 为 最 小 ? 


11.4 有 效 使 用 二 级 存储 器 


大 多 数 算法 研究 中 ， 人 们 都 假设 数据 是 在 主 存储 器 中 ,访问 任何 数据 项 所 花费 的 时 间 一 样 。 
这 种 计算 模式 通常 被 称 为 计算 的 “RAM 模 型”， 或 称 为 随机 访问 计算 模型 。 然 而 ， 当 实现 一 个 
DBMS 时 ， 必 须 假 设 数据 不 在 主 存储 器 中 。 因 此 ， 所 设计 的 有 效 的 算法 中 ， 必 须 考 虑 使 用 第 二 
级 存储 器 ， 或 许 甚 至 要 考虑 使 用 第 三 级 存储 器 。 在 二 级 存储 器 或 三 级 存储 器 中 处 理 极 大 量 数据 
的 最 佳 算 法 ,通常 与 处 理 同样 问题 的 最 佳 主 存储 器 算法 不 同 。 

本 节 将 主要 考虑 主 存储 器 与 二 级 存储 器 之 间 的 相互 作用 。 特 别 指出 ， 设 计算 法 时 注意 限制 
磁盘 访问 次 数 很 有 好 处 ， 即 使 这 种 算法 作为 主 存 算法 并 非 最 有 效 时 也 如 此 。 一 个 相似 的 原理 适 
用 于 存储 器 层次 中 的 每 一 级 。 如 果 记 住 高 速 缓存 的 大 小 并 设计 算法 ,以 便 移 动 到 高 速 缓存 的 数 
据 能 被 多 次 使 用 ， 那 么 主 存储 器 算法 有 时 也 能 被 改进 。 同 样 ， 使 用 三 级 存储 的 算法 需要 考虑 在 
三 级 存储 器 与 二 级 存储 器 之 间 移 动 的 数据 量 ， 而 且 ， 即 使 是 以 存储 器 结构 层次 的 较 低层 中 的 更 
多 工作 为 代价 ， 来 最 小 化 这 个 数量 ， 也 是 明智 之 举 。 

11.4.1 计算 的 MO 模型 

设想 一 台 运 行 DBMS 的 简单 计算 机 ， 正 尝试 着 为 那些 以 查询 和 修改 数据 库 等 不 同方 式 访问 
数据 库 的 众多 用 户 提供 服务 。 另 外 , 假设 该 计算 机 有 一 个 处 理 器 、 一 个 磁盘 控制 器 和 一 个 磁盘 。 
数据 库 本 身 太 大 以 至 于 主 存储 器 中 容纳 不 下 。 数 据 库 的 关键 部 分 可 以 缓存 在 主 存储 器 中 ， 但 是 
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通常 ， 用 户 要 访问 的 数据 库 的 每 一 个 片断 ， 必 须 先 从 磁盘 中 检索 。 

由 于 存在 着 许多 用 户 ， 每 个 用 户 频 繁 地 发 出 磁盘 IO 请 求 ， 磁 盘 控 制 器 经 常会 有 一 个 请 求 
队列 ， 先 假定 该 请 求 队列 以 先 到 先 服务 (first-come-first-served ) 原理 处 理 请 求 。 该 策略 使 得 
一 个 指定 用 户 给 出 的 每 一 个 请 求 看 起 来 都 像 是 随机 请 求 ( 也 就 是 说 ， 在 请 求 之 前 磁头 处 于 一 个 
随机 的 位 置 )， 即 使 该 用 户 正在 读 属 于 单个 关系 的 块 ， 而 且 那 个 关系 被 存储 在 单个 磁盘 柱 面 上 。 
在 本 节 的 后 面部 分 ， 将 讨论 如 何以 不 同 的 方法 改善 系统 的 性 能 。 但 是 ， 下 面 定 义 的 计算 的 IO 
模型 的 规则 继续 有 效 

I O 开 销 的 主导 地 位 : 如 果 一 个 块 需要 在 磁盘 与 主 存 之 间 移 动 ， 那 么 执行 读 或 写 所 花费 的 
时 间或 许 要 比 用 于 操纵 主 存 中 的 数据 所 花费 的 时 间 长 得 多 。 这 样 ， 块 访问 〈 读 和 写 ) 次 数 就 是 
算法 所 需要 的 时 间 的 很 好 的 近似 值 ， 而 且 应 该 被 最 小 化 。 

假定 ， 磁 盘 是 Megatron 747， 块 大 小 为 16KB ， 时 间 属 性 由 例 11.5 决 定 。 特 别 是 ， 读 或 写 一 
个 块 的 平均 时 间 大 约 是 1 毫秒 。 

例 11.6 ”假设 数据 库 有 关系 R， 有 一 个 对 元 组 的 查询 请 求 ， 该 元 组 有 一 个 确定 的 键 值 上 
正如 所 看 到 的 那样 ， 最 好 为 R 创建 一 个 索引 ， 用 于 标识 带 有 键 值 的 元 组 出 现 的 磁盘 块 。 而 索 
引 是 否 告知 这 个 元 组 出 现在 块 的 什么 位 置 通常 并 不 重要 。 

理由 是 读 这 个 16KB 的 块 大 约 要 花 11 毫 秒 。 在 11 毫 秒 内 ， 一 个 新 式 的 处 理 器 能 够 执行 上 百 
万 条 的 指令 。 然 而 ,一 旦 块 进 入 主 存 ， 即 使 采用 最 笨 的 线性 搜索 ， 搜 索 键 值 上 仅 需 执行 成 千 条 . 
指令 。 因 此 在 主 存 中 执行 搜索 的 附加 时 间 将 小 于 块 访问 时 间 的 1% ， 忽 略 附加 时 间 不 会 有 任何 
问题 。 口 


11.4.2 二 级 存储 器 中 的 数据 排序 

下 面 用 一 个 扩展 的 例子 来 讨论 如 何在 计算 开销 的 I O 模 型 下 改变 算法 。 这 个 例子 就 是 当 数 
据 量 比 主 存 容量 大 得 多 的 情况 下 的 排序 问题 。 首 先 介绍 一 个 特定 的 排序 问题 ， 并 且 给 出 执行 排 
序 的 机 器 的 若干 细节 。 

例 11.7 ”假定 有 一 个 由 10 000 000 个 元 组 构成 的 大 型 关系 。 每 个 元 组 用 拥有 若干 个 字段 的 
一 个 记录 来 表示 ， 其 中 的 一 个 字段 为 排序 键 (sort key) 字段 ， 如 果 不 与 其 他 类 型 的 键 发 生 混 
清 的 话 ， 或 者 就 叫 “ 键 字段 "。 排 序 算法 的 目的 是 按 排序 键 值 的 升序 来 对 记录 排序 。 

排序 键 可 以 是 SQL 通常 意义 上 主键 的 “ 键 ”， 即 那 种 保证 每 个 记录 取 惟 一 值 的 主键 ， 也 可 
以 不 是 。 如 果 人 允许 排序 键 有 重复 值 ， 那 么 具有 等 值 排序 键 的 记录 的 任意 顺序 都 是 可 接受 的 。 为 
简单 起 见 ， 假 定 排序 键 具 有 惟一 性 。 l 

记录 《元 组 ) 以 每 块 16 384 字 节 填 到 磁盘 块 中 。 假 设 每 块 有 100 条 记录 。 也 就 是 说 ， 每 条 
记录 160 字 节 。 块 中 还 需要 存储 一 些 额外 的 信息 ( 在 12.2 节 讨论 过 )，100 条 这 样 大 小 的 记录 占 
据 一 块 中 的 16 384 个 字 节 。 于 是 ， 关 系 R 占 了 100 000 块 ， 共 16.4 亿 个 字 节 。 

执行 排序 操作 的 机 器 拥有 一 个 Megatron 747 磁 盘 并 且 还 有 100MB 的 主 存 作 为 关系 的 块 的 
缓冲 区 。 实 际 的 主 存储 器 容量 更 大 ， 但 是 其 剩余 部 分 被 系统 所 用 。 在 容量 为 100MB 的 主 存 
(实际 为 100 x 22 字 节 ) 中 能 容纳 的 块 数 是 100 x 27/214, Be 6400 块 。 口 


如 果 数 据 能 全 部 装 人 主 存 ， 那 么 有 很 多 众所周知 的 算法 可 以 使 用 8 。 各 种 各 样 的 “快速 排 
序 法 ”( Quicksort ) 通常 被 认为 是 最 快 的 算法 。 选 取 的 快速 排序 算法 仅仅 使 用 键 字段 排序 ， 该 
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键 字段 还 带 有 指向 整个 记录 的 指针 。 仅 仅 当 键 及 其 指针 按 顺 序 排 定时 ， 指 针 才 能 正确 指向 每 一 
个 记录 所 在 的 位 置 。 

遗憾 的 是 ， 当 需要 二 级 存储 器 保存 数据 时 ， 这 些 想 法 并 不 十 分 奏效 。 当 数据 的 大 部 分 在 二 
级 存储 器 中 时 , 更 好 的 排序 方法 是 那些 使 每 一 个 块 在 主 存 与 辅 存 之 间 仅 需 移 动 很 少 次 数 的 算法 。 
通常 ， 这 些 算 法 进行 少量 的 几 趟 操作 ， 在 一 趟 中 每 个 记录 被 读 人 主 存 一 次 ， 写 人 磁盘 一 次 。 
11.4.4 将 讨论 这 种 算法 。 
11.4.3 归并 排序 

读者 可 能 熟悉 一 种 被 称 为 “归并 排序 ”( Merge-Sort ) 的 排序 算法 ,该 算法 将 几 个 小 的 已 排 
好 序 的 表 归 并 为 一 个 较 大 的 排 好 序 的 表 。 为 了 归并 两 个 已 排序 的 表 ， 要 反复 比较 每 个 表 剩 余部 
分 中 最 小 的 键 ， 把 其 中 键 值 较 小 的 记录 移出 ， 如 此 反复 ， 直 到 一 个 表 被 取 尽 。 这 时 候 ,， 按 上 述 
选取 顺序 输出 的 表 ， 加 上 未 取 尽 的 表 的 剩余 部 分 ， 就 是 已 排 好 序 的 完整 的 记录 集 。 

例 11.8 ”假设 有 两 个 有 序 表 ， 各 有 4 个 记录 。 为 了 使 事情 简化 ， 我 们 以 记录 的 键 来 表示 记 
录 ， 没 有 其 他 数据 ， 还 假设 键 是 整数 。 一 个 有 序 表 是 (1，3，4，9 ), 而 另 一 个 有 序 表 是 (2, 
5, 7, 8) 在 图 11-10 中 ， 可 以 看 到 归并 处 理 的 步 又 。 





图 11-10 归并 两 个 有 序 表 生成 一 个 排序 表 


第 一 步 ， 比 较 两 个 表 的 首 元 素 1 和 2。 由 于 1 < 2，1 被 从 第 一 个 表 中 移出 ， 成 为 输出 的 第 一 
个 元 素 。 第 二 步 ， 两 个 表 剩 余部 分 的 首 元 素 是 3 和 2， 进 行 比较 ，2 获 胜 并 输出 。 归 并 继续 进行 ， 
直到 第 7 步 ， 此 时 第 二 个 表 被 取 尽 。 这 时 ， 第 一 表 的 剩余 部 分 恰巧 只 有 一 个 元 素 ， 将 其 输出 ， 
归并 完成 。 请 注意 ， 输 出 是 有 序 的 ， 而 且 必 然 是 这 样 ， 这 是 由 于 每 一 步 都 是 选取 剩余 元 素 中 最 
小 的 那 一 个 。 口 


在 主 存 中 归并 的 时 间 与 两 表 长 度 的 总 和 成 线性 关系 。 原 因 是 ， 由 于 给 定 的 表 已 经 排序 ， 只 
有 两 个 表 的 首 元 素 ， 才 有 可 能 是 所 有 未 被 选择 元 素 中 的 最 小 的 元 素 ， 对 它们 进行 比较 的 时 间 是 
恒定 的 。 如 果 有 n 个 元 素 要 排序 ， 传 统 的 归并 排序 算法 需要 进行 logzn 趟 递归 排序 。 该 算法 描 
述 如 下 : 

基础 : 如 果 有 一 个 单元 素 表 要 排序 ， 由 于 顺序 已 经 存在 ， 所 以 不 需要 做 任何 事情 。 

归纳 ;如果 要 排序 的 表 含 有 一 个 以 上 的 元 素 ， 则 将 表 分 为 两 个 同样 长 度 的 表 。 如 果 原 始 表 
的 长 度 为 奇数 ， 则 两 者 长 度 要 尽 可 能 地 接近 。 递 归 排序 两 个 子 表 。 然后 归并 所 得 到 的 排序 表 为 
一 个 排序 表 。 

这 个 算法 的 分 析 是 众所周知 的 ， 而 且 在 这 里 也 不 太 重 要 。 简 而 言 之 , 表示 n 个 元 素 排序 的 
时 间 7 (mn)， 等 于 某 常 数 乘 以 n (将 原 表 分 开 ， 并 归并 所 得 到 的 排序 表 ), 加 上 大 小 为 n/2 的 两 
个 表 的 排序 时 间 。 也 就 是 说 ，7 (n) = 27 (n / 2) + an，a 为 常数 。 这 个 递归 公式 的 结果 是 Tn) 
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= O(nlogn), 即 与 nlogn 成 正比 。 
11.4.4 两 趟 多 路 归并 排序 

下 面 介绍 的 两 趟 多 路 妇 并 排序 ( Tow-Phase, Multiway Merge-Sort， 经 常 简 写 为 TPMMS ) 
的 归并 排序 法 的 一 种 变 体 ， 我 们 将 在 例 11.7 所 描述 的 机 器 上 用 这 种 方法 为 该 例 的 关系 排序 。 在 
许多 数据 库 应 用 中 ， 这 是 一 个 常 被 采用 的 排序 算法 。 简 单 地 说 ， 该 算法 包括 : 

* 第 一 赵 : 排序 主 存 大 小 的 数据 片断 ， 使 得 每 个 记录 都 是 一 个 有 序 表 的 一 部 分 ， 该 表 正 好 

可 以 装 在 可 用 主 存 内 。 这 样 ， 可 能 有 任意 个 这 样 的 有 序 子 表 ， 我 们 在 下 一 阶段 归并 这 些 

子 表 。 

。 第 二 趟 : 归并 所 有 的 有 序 子 表 以 形成 单个 排序 表 。 

我 们 首先 观察 到 的 是 ， 由 于 数据 是 在 第 二 级 存储 器 中 ， 因 此 不 要 在 一 个 记录 或 几 个 记录 的 
基础 上 开始 递归 。 理 由 是 ， 当 要 排序 的 记录 存放 在 主 存 中 时 ， 归 并 排序 不 如 其 他 算法 那么 快 。 
这 样 ， 通 过 把 记录 装 人 整个 内 存 来 开始 递归 ， 并 且 使 用 诸如 快速 排序 这 样 的 恰当 的 主 存 排序 算 
法 。 根 据 需 要 多 次 重复 如 下 处 理 : 

1. 在 所 有 可 用 的 主 存 中 存 人 来 自 原始 关系 的 需要 排序 的 块 。 

2. 对 主 存 中 的 记录 排序 。 

3. 将 排序 后 的 记录 从 主 存储 器 写 人 二 级 存储 器 的 新 块 中 ， 并 形成 一 个 有 序 子 表 。 

在 第 一 趟 结束 时 ， 原 始 关系 的 所 有 记录 已 经 被 读 人 主 存 一 次 ， 而 且 成 为 已 经 被 写 人 二 级 存 
储 器 的 主 存 大 小 的 有 序 子 表 的 一 部 分 。 

例 11.9 ”考虑 例 11.7 中 描述 的 关系 。 将 100 000 个 块 中 的 6400 个 块 装 人 主 存储 器 。 这 样 将 装 
人 存储 器 16 次 ， 在 主 存 中 为 记录 排序 ， 并 将 有 序 子 表 写 人 磁盘 。16 个 子 表 的 最 后 一 个 要 比 其 余 
的 子 表 短 ， 它 仅 占 据 4000 块 ， 而 其 余 15 个 子 表 占 据 6400 块 。 

这 个 阶段 要 花费 多 长 时 间 呢 ? 这 里 要 读 100 000 个 块 ， 每 个 块 读 一 次 ， 还 要 写 100 000 个 新 
块 。 这 样 就 有 200 000 次 磁盘 1/O。 现 在 假定 块 在 磁盘 上 的 排序 是 任意 的 ， 正 如 在 11.5 节 将 看 到 
的 那样 ， 这 一 假定 能 大 大 地 加 以 改进 。 而 在 我 们 的 随机 性 假定 中 ， 每 一 个 块 的 读 或 写 大 约 要 花 
费 11 毫 秒 。 这 样 ， 第 一 趟 的 MO 时 间 是 2200 秒 ， 即 37 分 钟 ， 每 个 有 序 子 表 需要 的 时 间 超 过 2 分 钟 。 
在 处 理 器 速度 为 每 秒 钟 执行 数 千 万 条 指令 的 条 件 下 ， 可 以 毫 无 困难 地 推算 出 ，1 亿 条 记录 构成 
有 序 子 表 的 时 间 远 小 于 MO 时 间 。 这 样 ， 总 时 间 约 为 37 分 钟 。 口 


现在 ， 考 虑 如 何 通过 归并 有 序 子 表 来 完成 排序 。 像 在 经 典 的 归并 排序 中 那样 ， 可 以 成 对 
地 将 它们 归并 , (Aa, WR n 个 有 序 子 表 , 将 会 导致 所 有 的 数据 进出 存储 器 21og2n 次 。 例 如 ， 
例 11.9 的 16 个 已 排序 子 表 要 被 读 人 辅 存 和 从 辅 存 读 出 一 次 以 便 归 并 成 8 个 表 。 一 次 完整 的 读 和 
写 将 有 序 表 减 少 到 4 个 ， 另 外 两 次 完整 的 读 和 写 将 把 表 减 少 到 1 个 。 这 样 ， 每 一 块 进行 8 次 磁盘 
读 写 。 

一 种 较 好 的 处 理 方法 是 将 每 个 有 序 子 表 的 第 一 块 读 入 一 个 主 存 缓冲 区 。 对 于 一 些 巨 型 的 关 
系 来 说 ， 来 自 第 一 趟 的 有 序 子 表 太 多 ， 以 致 即使 每 个 子 表 只 读 取 一 个 块 ， 也 无 法 将 所 有 这 些 块 
放 入 主 存 中 ， 这 个 问题 将 在 11.4.5 节 处 理 。 但 是 ， 对 于 诸如 例 11.7 中 的 那些 数据 ， 由 于 表 的 数 
目 相对 较 少 ， 该 例 中 是 16 个 ， 使 得 来 自 每 个 表 的 一 个 块 都 可 以 顺利 地 装 人 主 存 。 

也 可 以 利用 一 个 缓冲 区 存放 输出 块 ， 输 出 块 将 容纳 尽 可 能 多 的 元 素 ， 这 些 元 素 位 于 完全 排 
序 表 的 前 部 。 输 出 块 开 始 为 空 。 缓 冲 区 的 安排 可 以 如 图 11-11 所 示 。 按 如 下 步骤 将 有 序 子 表 归 
并 成 一 个 包含 所 有 记录 的 有 序 表 : 


AEREE o w 


输入 缓冲 区 每 个 缓冲 区 对 应 一 个 已 排序 的 表 


指向 第 一 个 未 被 先 _ 
中 的 记录 的 指针 一 到 


在 未 选中 记录 中 选 
择 最 小 的 作为 输出 


输出 缓冲 区 


一 


图 11-11 多 路 归并 法 的 主 存 组 织 


1. 在 所 有 表 的 剩余 元 素 的 第 一 个 元 素 中 找 出 最 小 键 。 由 于 这 种 比较 在 主 存 中 进行 ， 是 线性 
查找 ， 要 执行 的 机 器 指令 数目 正比 于 子 表 数 。 然 而 ， 如 果 上 愿意 ， 可 以 利用 一 个 基于 “优先 队 
列 ”9 的 方法 去 查找 最 小 元 素 ， 优 先 队列 所 花费 的 时 间 与 子 表 数 的 对 数 成 正比 。 

2. 将 最 小 元 素 移动 到 输出 块 的 第 一 个 可 用 位 置 。 

3. 如 果 输 出 块 已 经 填 满 ， 则 将 其 写 信 磁盘， 并且 重新 初始 化 主 存 中 对 应 的 缓冲 区 ， 以 便 存 
放下 一 个 输出 块 。 

4. 如 果 刚 刚 从 中 取出 最 小 元 素 的 块 已 经 被 取 尽 ， 则 从 同一 有 序 子 表 中 读 取 下 一 个 块 到 同一 
缓冲 区 ， 即 刚刚 取 尽 记录 的 那个 块 所 用 的 缓冲 区 。 如 果 有 序 子 表 中 没有 任何 块 剩余 ， 则 听任 组 
冲 区 为 空 ， 而 且 在 任何 对 最 小 剩余 元 素 的 选取 中 ， 都 不 再 考虑 来 自 那个 表 的 元 素 。 

第 二 趟 与 第 一 趟 不 同 ， 因 为 不 知道 何 时 一 个 输入 块 会 被 取 尽 ， 所 以 块 以 一 种 不 可 预料 的 次 
序 读 出 。 然 而 ， 请 注意 ,来 自 一 个 有 序 表 记 录 的 每 一 个 块 ， 都 恰好 从 磁盘 读 出 一 次 。 这 样 ， 第 
二 趟 读 取 块 的 总 次 数 是 100 000， 与 第 一 趟 一 样 多 。 同 样 ， 每 个 记录 被 放 人 输出 块 一 次 ， 而 且 每 
一 个 输出 块 均 被 写 人 磁盘 。 这 样 ， 第 二 趟 写 块 的 次 数 也 是 100 000。 第 二 趟 在 主 存 中 的 计算 量 与 
IO 开销 相 比 可 以 忽略 ， 因 此 我 们 断定 ， 第 二 趟 又 花费 了 37 分 钟 ， 或 者 说 整个 排序 花费 74 分 钟 。 [531 
11.4.5 更 大 型 关系 的 多 路 归并 

以 上 描述 的 两 趟 多 路 归并 排序 可 用 于 一 些 非常 大 的 记录 集 。 为 了 看 看 这 样 的 记录 集 有 多 大 ， 
假设 : 

1. 块 大 小 是 B 字 节 。 

2. 缓冲 区 块 可 用 的 主 存 是 M 字 节 。 

3. 记录 占用 R 字 节 。 


wn 
Ww 
© 


© 见 Aho,A.V. and J.D. Ullman Foundations of Computer, Science, Computer Science Press,1992. 
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块 应 当 有 多 大 ? 
在 使 用 Megatron747 磁 盘 的 算法 分 析 中 ， 设 定 了 一 个 16KB 大 小 的 块 。 可 是 有 人 认为 
较 大 的 块 尺寸 有 利 。 在 例 11.5 中 ， 一 个 16KB 块 的 传输 时 间 大 约 是 0.25 毫 秒 ， 平 均 寻 道 时 
间 和 旋转 延迟 时 间 大 约 是 10.63 总 秒 。 如 果 使 块 大 小 加 倍 ， 那 么 对 于 像 所 描述 的 多 路 归并 
排序 这 样 的 算法 ， 磁 盘 1/0 数 将 减少 一 半 。 另 一 方面 ， 访 问 一 个 块 的 时 间 的 惟一 变化 是 传 
输 时 间 增 加 到 0.50 毫 秒 。 这 样 ， 排序 所 花费 的 时 间 近 似 于 减少 一 半 。 如 果 再 把 块 大 小 加 
4% £512KB(Megatron 747 的 一 个 磁道 )， 传 输 时 间 仅 增加 到 8 毫 矿 ， 在 这 种 情况 下 ， 平 均 


块 访问 时 间 将 是 20 之 秒 ， 此 处 仅 需要 访问 12 500 块 ， 排 序 速 度 提 高 了 14 售 。 

另 一 方面 ,保持 相 当 小 的 块 尺寸 也 有 其 相应 理由 。 首 先 ， 无 法 有 效 地 利用 履 盖 若干 
个 磁道 的 那些 块 ; 其 次 ， 如 果 块 的 尺寸 太 大 ， 小 的 关系 只 占据 块 的 一 小 部 分 ， 这 样 要 浪 
费 磁盘 上 许多 空间 。 还 有 针对 二 级 存储 器 组 织 的 菜 些 数据 结构 ， 提 出 将 数据 分 布 到 许多 
块 当中 ， 从 而 当 块 尺寸 太 大 时 ， 工 作 情况 不 好 。 实 际 上 ， 在 11.4.5 节 中 将 看 到 ， 块 越 大 ， 
能 用 本 节 所 描述 的 两 趟 多 路 方法 排序 的 记录 越 少 。 尽 管 如 此 ， 随 着 机 器 速度 的 加 快 ， 磁 
盘 容 量 的 加 大 ， 块 加 大 是 一 种 趋势 。 


这 样 ， 主 存 中 可 用 的 缓冲 区 数 是 WM/B。 在 第 二 趟 ， 一 个 缓冲 区 用 于 存放 输出 块 ， 其 余 的 组 
冲 区 供 有 序 子 表 使 用 。 这 样 ， 第 一 趟 可 以 创建 的 有 序 子 表 数 是 (MIB) -1。 这 个 量 也 正 是 待 排 
序 记录 填 满 主 存 的 次 数 。 每 填 满 主 存 一 次 ， 可 以 排序 M/R 个 记录 。 这 样 ， 可 以 排序 的 记录 的 总 
数 是 CM/R)(M1B)-1)， 或 者 近似 为 MYRB 个 记录 。 

例 11.10 ”如 果 采 用 例 11.7 中 给 出 的 参数 ， 则 M =104 857 600, B = 16 384, R = 160。 这 样 ， 
能 够 排序 的 记录 数 达到 MYRB =42 亿 ， 占 据 2/3TB。 注 意 ， 这 样 大 的 关系 ， 在 Megatron 747 磁 
盘 上 是 装 不 下 的 。 口 


如 果 需 要 排序 更 多 的 记录 ， 可 以 增加 第 三 趟 ， 使 用 TPMMS 为 包含 W2/RB 个 记录 的 记录 组 排 
序 ， 将 它们 变 成 有 序 子 表 。 然 后 ， 在 第 三 趟 ， 在 最 终 的 多 路 归并 中 ， 归 并 多 达 CM/B) -1 个 
这 样 的 子 表 。 
第 三 趟 大 约 能 够 排序 M3/RP? 个 记录 ， 占 据 M3/B3 个 块 。 对 于 例 11.7 的 参数 来 说 ， 这 个 总 量 
大 约 是 27 万 亿 条 记录 ， 占 据 4.3 拍 (PB )。 这 样 一 个 量 至 今 未 闻 。 由 于 即使 对 TPMMS 的 0.67 K 
字 节 限制 ， 在 二 级 存储 器 中 都 不 大 可 能 达到 ， 因 此 建议 ， 多 路 归并 排序 的 两 趟 方式 足以 满足 所 
有 实际 目的 。 
11.4.6 习题 
习题 11.4.1 ”使 用 两 趟 多 路 归并 排序 法 对 例 11.7 中 的 关系 排序 。 如 果 用 习题 11.3.1 中 描述 的 
Megatron 777 磁 盘 代 替 Megatron 747 磁 盘 ， 而 其 他 所 有 机 器 特性 和 所 保存 的 数据 相同 ， 则 
排序 需要 多 长 的 时 间 ? 
习题 11.4.2 ”假设 在 机 器 上 采用 两 趟 多 路 归并 法 和 例 11.7 的 关系 R。 如 果 关 系 R 和 /或 机 器 特 
性 作 如 下 更 改 ， 请 说 明 排序 需要 多 少 次 磁盘 1/O: 
* a) 关系 R 的 元 组 数 加 倍 ( 其 他 任何 参数 仍 保持 不 变 )。 
b) 元 组 长 度 加 长 到 320 字 节 ( 其 他 任何 参数 仍 保持 与 例 11.7 相 同 )。 
* c) 块 的 大 小 增加 到 32 768 字 节 ( 同样 地 ， 完 成 本 习题 的 全 过 程 中 其 他 所 有 参数 不 变 )。 
d) 可 用 主 存储 器 的 大 小 增加 到 200MB 。 
习题 11.4.3 ”假设 例 11.7 中 的 关系 R 的 元 组 数 增加 到 与 在 该 例 中 描述 的 机 器 上 使 用 的 两 阶 





Beas 


段 多 路 归并 排序 法 所 能 排序 的 最 大 元 组 数 相同 。 同 时 假设 磁盘 可 以 存放 关系 R， 但 是 磁盘 、 

机 器 和 关系 R 的 其 他 所 有 特性 保持 不 变 。 对 关系 R 排 序 需 要 花费 多 少时 间 ? 

习题 11.4.4 ” 舞 次 考虑 例 11.7 的 关系 R， 但 是 假设 按照 排序 键 ( 事实 上 ， 排 序 键 是 一 般 意 义 

上 的 “ 键 "， 并 且 惟 一 地 标识 记录 ) 的 顺序 存储 。 同 时 假设 ， 关 系 R 存 储 在 一 个 位 置 已 知 的 

块 序列 中 ， 因 此 对 于 任何 一 个 ;， 可 以 用 一 个 磁盘 I / 0 来 定位 和 检索 R 的 第 i 块 。 给 出 一 个 

键 值 乓 ， 通 过 使 用 标准 的 二 分 法 搜索 技术 ， 能 够 找到 包含 该 键 值 的 元 组 。 请 问 找到 包含 键 

玉 的 元 组 所 需要 的 最 大 磁盘 IO 数 是 多 少 ? 

! 习题 11.4.5 假设 有 与 习题 11.4.4 相 同 的 情况 ， 但 是 有 10 个 键 值 要 查找 。 请 问 找 出 全 部 10 个 

元 组 所 需 的 最 大 磁盘 IO 数 是 多 少 ? 

习题 11.4.6 ”假设 有 一 个 关系 ， 它 有 7 个 元 组 ， 每 个 元 组 有 R 字 节 。 另 外 有 一 台 机 器 ， 其 

主 存 为 M,， 磁盘 块 大 小 为 8， 使 用 两 趋 多 路 归并 排序 法 ， 它 恰好 能 对 n 个 元 组 排序 。 如 果 

对 参数 按 下 列 情 况 之 一 作 改 变 : a) BUS b) ROME c) MINE, n 的 最 大 值 的 变化 是 多 少 ? 

! 习题 11.4.7 ”如果 能 够 利用 三 趟 多 路 排序 法 排序 ， 重 复 计 算 习 题 11.4.6。 

! 习题 11.4.8 作为 参数 R、M 和 B ( 同 习题 11.4.6 ) 以 及 整数 的 函数 ， 利 用 上 趟 多 路 归并 排 
序 法， 可 对 多 少 个 记录 排序 ? 


11.5 加 速 二 级 存储 的 访问 


11.4.4 节 的 分 析 是 假定 数据 存储 在 一 个 单独 的 磁盘 上 ， 并 且 从 磁盘 的 可 能 位 置 上 随机 地 选 
择 块 。 这 个 假设 对 于 并 发 执行 大 量 小 查询 的 系统 是 合理 的 。 但 是 ， 如 果 系 统 所 做 的 一 切 就 是 排 
序 一 个 大 的 关系 ， 那 么 通过 明智 地 安置 排序 中 所 涉及 的 块 的 位 置 ， 充 分 利用 磁盘 的 工作 方式 ， 
就 能 够 节省 大 量 的 时 间 。 事 实 上 ， 即 便 系 统 负载 是 来 自 访问 磁盘 上 “随机 ” 块 的 大 量 无 关 查 询 ， 
也 可 以 做 一 些 工作 使 查询 执行 得 更 快 ， 并 且 / 或 者 允许 系统 同时 执行 更 多 的 查询 〈“ 提 高 吞吐 
EB”), 本 节 将 要 讨论 的 策略 有 : 

"将 一 起 访问 的 块 放置 在 同一 柱 面 上 ， 这 样 ， 通 常 可 以 避免 寻 道 时 间 ， 并 且 有 可 能 避免 旋 

转 延迟 。 

“将 数据 划分 到 几 个 较 小 的 磁盘 上 ， 而 不 是 集中 在 一 个 大 磁盘 上 。 使 用 更 多 的 可 独立 访问 
块 的 磁头 组 合 ， 从 而 可 以 增加 单位 时 间 内 访问 块 的 数量 。 

© “镜像 ” 磁 盘 : 在 单个 磁盘 上 制作 两 份 或 更 多 的 数据 备份 。 这 种 策略 ， 除 了 当 其 中 一 个 
磁盘 出 现 故障 时 能 保护 数据 外 ， 还 能 像 划 分 数据 到 几 个 磁盘 上 一 样 ， 增 加 可 以 同时 访问 
的 块 数 。 

“无论 是 在 操作 系统 中 ， 或 是 在 DBMS 中 ， 以 及 在 磁盘 控制 器 中 ， 使 用 磁盘 调度 算法 来 选 
择 读 写 请 求 的 块 的 顺序 。 

* 将 预期 要 使 用 的 块 预 取 先 取 到 主 存储 器 中 。 

在 讨论 中 ， 将 强调 改进 的 可 能 性 ， 这 些 改进 只 是 当 系 统 用 在 〈 至 少 是 暂时 地 ) 一 项 特殊 任 
务 〈 例 如 在 例 11.7 中 介绍 的 排序 操作 ) 时 才 是 可 能 的 。 但 是 ， 至 少 还 可 以 从 其 他 两 个 方面 来 测 
试 系统 性 能 和 二 级 存储 器 的 使 用 : 

当 系统 同时 支持 大 量 的 进程 时 会 发 生 什 么 情况 ? 例如 ， 一 个 航班 订 票 系统 将 同时 接收 到 来 
自 许 多 代理 商 的 关于 班机 和 订 票 情况 的 查询 。 


* 


* 


* 


如 果 对 一 个 计算 机 系统 已 有 一 个 固定 的 预算 ， 或 者 必须 在 一 个 已 经 设计 好 且 不 易 改 动 的 系 


统 上 执行 一 系列 查询 时 ， 该 如 何 执行 ? 
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在 研究 可 能 的 选择 之 后 ， 将 在 11.5.6 节 中 讨论 这 些 问题 。 
11.5.1 按 柱 面 组 织 数 据 

由 于 寻 道 时 间 占 平均 块 访问 时 间 的 一 半 ， 因 此 在 某 些 应 用 中 ， 将 一 些 可 能 被 一 起 访问 的 数 
据 (例如 关系 ) 存储 在 单个 柱 面 上 是 一 件 有 意义 的 事情 。 如 果 空 间 不 够 ， 可 以 利用 相 邻 的 几 
个 柱 面 。 

事实 上 ， 如 果 选 择 在 单个 磁道 上 或 者 在 单个 柱 面 上 连续 地 读 所 有 块 ， 那 么 可 以 只 考虑 第 一 
次 寻 道 时 间 (移动 到 柱 面 上 的 时 间 ) 和 第 一 次 旋转 延迟 (等待 第 一 个 块 移动 到 磁头 下 的 时 间 )， 
而 忽略 其 他 时 间 。 这 样 ， 从 磁盘 上 读 写 数据 的 速度 接近 于 理论 上 的 传输 速率 。 

例 11.11 ”回顾 11.4.4 节 中 描述 的 两 趟 多 路 归并 排序 法 的 性 能 。 回 忆 一 下 在 例 11.5 中 ， 对 于 
Megatron 747 人 磁盘 ， 我 们 确定 了 它 的 块 平均 传输 时 间 、 寻 道 时 间 和 旋转 延迟 时 间 分 别 为 0.25 毫 
秒 、6.46 毫 秒 和 4.17 毫 秒 。 同 时 还 发 现 ， 一 个 占据 1GB、 有 10 000 000 条 记录 的 排序 操作 ， 大 约 
需要 花费 74 分 钟 。 在 这 段 时 间 内 需要 执行 四 个 操作 ， 其 中 一 个 读 操作 ， 一 个 写 操作 。 两 趟 算法 
的 每 趟 都 涉及 一 个 读 操作 和 一 个 写 操作 。 

现在 考虑 按 柱 面 组 织 数据 是 否 可 以 缩短 这 些 操作 的 时 间 。 第 一 个 操作 是 将 原始 数据 读 到 主 
存储 器 中 。 回 忆 例 11.9 中 ， 需 要 装载 主 存储 器 16 次 ， 每 次 6400 块 。 

原始 的 100 000 块 数据 可 以 被 存储 在 连续 的 柱 面 上 。Megatron 747 磁 盘 的 16 384 个 柱 面 中 的 
每 一 个 大 约 可 存储 8MB， 共 512 块 。 从 技术 角度 上 和 看 这 是 一 个 平均 数 ， 因 为 内 侧 磁道 的 存储 量 
比 外 侧 磁道 小 ， 但 是 为 简单 起 见 ， 可 以 假设 所 有 磁道 和 柱 面 有 同样 的 存储 量 。 这 样 ， 就 必须 要 
在 196 个 柱 面 上 存储 原始 数据 ， 并 且 每 次 将 13 个 柱 面 读 人 主 存储 器 。 

可 以 利用 单个 寻 道 时 间 读 取 一 个 柱 面 。 甚 至 不 必 等 待 柱 面 上 的 任何 特殊 块 通 过 磁头 ， 因 为 
所 读 记 录 的 顺序 在 这 一 阶段 并 不 重要 。 必 须 移 动 12 次 磁头 到 相 邻 的 柱 面 ， 但 是 回忆 一 下 ， 根 据 
例 11.5 中 的 参数 ， 移 动 一 个 磁道 只 需要 花费 1 毫秒 。 写 主 存储 器 的 总 时 间 是 ， 

1. 一 次 平均 寻 道 时 间 为 6.46 毫 秒 。 

2. 12 次 单 柱 面 的 寻 道 时 间 为 12 毫 秒 。 

3. 6400 块 的 传输 时 间 为 1.60 秒 。 

除了 上 述 最 后 一 项 时 间 之 外 ， 其 他 各 项 都 可 以 忽略 不 计 。 因 为 往 主 存储 器 中 装载 16 次 ， 
所 以 第 一 趟 读 操 作 的 总 时 间 大 约 是 26 秒 。 当 假设 块 是 随机 地 分 布 在 磁盘 上 时 ， 这 个 数字 应 当 
与 例 11.9 中 第 一 赵 中 的 读 操作 所 花费 的 18 分 钟 相 比较 。 类 似 地 ， 第 一 趟 中 的 写 操作 也 可 以 在 邻 
近 的 柱 面 上 存储 记录 的 16 个 有 序 表 。 采 用 与 读 操作 同样 的 磁头 运动 可 以 将 这 些 记 录 写 到 另外 
196 个 柱 面 上 。 对 于 16 个 表 的 每 一 个 进行 一 次 随机 寻 道 和 12 次 单 柱 面 寻 道 。 这 样 ， 第 一 趟 的 写 
操作 时 间 大 约 是 26 秒 ， 或 者 第 一 趟 的 全 部 操作 时 间 为 32 秒 ， 相 比 之 下 ， 当 采用 随机 分 布 块 时 
为 37 分 钟 。 

为 一 方面 ， 按 柱 面 存储 对 排序 的 第 二 趟 没有 帮助 。 在 第 二 趟 中 ， 块 以 一 定 的 顺序 从 16 个 有 
序 子 表 的 头 部 读 出 ,该 顺序 由 数据 和 取 尽 其 当前 块 的 表 所 决定 。 同 样 ， 包 含 完整 有 序 表 的 输出 
块 一 次 写 人 一 块 ， 与 块 的 读 操作 交替 进行 。 这 样 ， 第 二 趟 仍然 要 花费 37 分 钟 。 这 里 排序 时 间 几 
平 减 掉 一 半 , 但 是 只 去 审慎 地 使 用 柱 面 并 不 能 做 得 更 好 。 口 


11.5.2 使 用 多 个 磁盘 

如 果 用 多 个 磁盘 ( 每 个 磁盘 都 具 独 立 磁头 组 ) 来 蔡 换 一 个 磁盘 ( 其 多 个 磁头 被 锁定 在 一 起 )， 
常常 能 够 提高 系统 的 速度 。 图 11-6 图 示 了 这 样 的 安排 。 该 图 中 ， 是 将 三 个 磁盘 连接 到 同一 个 控 
制 器 。 只 要 磁盘 控制 器 、 总 线 和 主 存储 器 能 以 高 速率 处 理 数据 传输 ， 其 效果 近似 于 将 读 写 磁盘 
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的 所 有 时 间 被 磁盘 数 除 。 说 明 这 个 差别 的 例子 如 下 : 

例 11.12 Megatron 737 磁 盘 具 有 例 11.3 和 例 11.5 中 的 Megatron 747 磁 盘 的 所 有 特性 ， 不 过 
它 只 有 两 个 盘 片 和 四 个 盘面 。 这 样 Megatron 737 可 保存 32GB 。 假 设 用 4 个 Megatron BRE 
一 个 Megatron 747， 考 虑 两 趟 多 路 归并 排序 法 如 何 实施 。 

首先 ， 可 以 把 所 给 定 的 记录 分 配 到 4 个 磁盘 上 ， 这 些 数据 将 占据 各 个 磁盘 上 196 个 相 邻 的 
柱 面 。 当 在 第 一 趋 期 间 准备 从 磁盘 向 主 存 装载 数据 时 ， 将 从 4 个 磁盘 的 每 一 个 中 读 取 数 据 并 填 
入 1/4 主 存 。 此 时 仍 能 得 到 例 11.11 中 获得 的 好 处 : 寻 道 时 间 和 旋转 等 待 基本 上 趋 于 零 。 但 是 
这 样 能 够 在 400 毫 秒 内 从 一 个 磁盘 读 取 1600 个 块 ， 并 装 和 信 1/4 主 存 。 只 要 系统 能 处 理 来 自 4 个 磁 
盘 的 以 此 速率 传输 的 数据 ， 便 能 在 0.4 秒 内 将 100MB 装 入 主 存 。 与 此 相 比 ， 使 用 一 个 磁盘 时 要 
用 1.6 秒 。 

同样 ， 当 在 第 一 趟 从 主 存 写 人 磁盘 时 ， 可 以 将 每 个 有 序 表 分 配 到 4 个 磁盘 上 ， 每 个 磁盘 大 
约 占据 13 个 相 邻 的 柱 面 。 这 样 ， 第 一 趟 的 写 操作 也 加 速 了 4 倍 ， 整 个 阶段 大 约 花 费 13 秒 。 与 此 
相 比 ， 仅 用 11.5.1 节 基于 柱 面 的 改进 措施 需要 52 秒 ， 原 始 随机 方法 则 需要 37 分 钟 。 

现在 ， 考 虑 TPMMS 的 第 二 趟 。 此 时 仍然 必须 以 看 似 随机 的 且 与 数据 相关 的 方式 从 各 个 表 
的 前 面 读 块 。 如 果 第 二 趟 的 核心 算法 一 来 自 16 个 子 表 的 剩余 元 素 中 的 最 小 元 素 选择 一 需要 将 用 
块 表示 的 16 个 表 完 全 装 和 人 主 存 ， 那 么 就 不 能 从 使 用 4 个 磁盘 中 得 到 好 处 。 每 次 一 个 块 被 用 完 时 ， 
就 必须 等 待 ， 直 到 来 自 同一 个 表 的 一 个 新 块 被 读 出 以 取代 原来 的 块 。 这 样 ， 在 同一 时 刻 只 有 一 
个 磁盘 可 以 使 用 。 

然而 ， 如 果 更 仔细 地 编写 代码 ， 新 块 的 第 一 个 元 素 一 出 现在 主 存 ， 就 可 以 在 16 个 最 小 元 素 
之 间 重 新 开始 比较 ?。 如 果 这 样 ， 若 干 个 表 就 可 以 同时 将 它们 所 在 的 块 装 入 主 存 。 只 要 它们 是 
在 不 同 的 磁盘 上 ， 就 能 同时 执行 若干 个 块 的 读 操作 ， 而 且 第 二 趟 读 操作 的 速度 有 增加 4 倍 的 潜 
力 。 另 外 还 必须 遵循 按 随机 顺序 读 块 的 限制 。 如果 紧 接着 需要 的 两 个 块 恰巧 是 在 同一 个 磁盘 上 ， 
那么 其 中 的 一 个 块 就 得 等 待 另 一 个 ， 至 少 在 第 二 个 块 的 开始 部 分 到 达 主 存 之 前 ， 所 有 主 存 处 理 
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要 提升 第 二 趟 写 操作 的 速度 比较 容易 。 可 以 采用 4 个 输出 缓冲 区 ， 并 依次 填充 各 个 缓冲 区 。 
每 个 缓冲 区 一 旦 装 满 ， 就 写 人 一 个 特定 的 磁盘 ， 按 顺序 装 人 柱 面 。 这 样 可 以 在 其 他 三 个 缓冲 区 
写 人 磁盘 的 同时 ， 填 写 另 一 个 缓冲 区 。 

尽管 如 此 ， 把 整个 有 序 表 写 人 磁盘 的 速度 还 是 不 可 能 比 从 16 个 中 级 表 读 数据 的 速度 更 快 。 
正如 前 面 所 看 到 的 ， 要 保持 全 部 4 个 磁盘 在 所 有 时 间 都 做 有 用 的 工作 是 不 可 能 的 ， 第 二 趟 的 增 
速 可 能 是 在 2 ~ 3 倍 的 范围 内 。 然 而 ， 即 使 是 2 倍 也 可 以 节省 18 分 钟 。 通 过 按 柱 面 组 织 数据 并 在 
4 个 磁盘 保存 数据 ， 对 于 排序 示例 ， 可 以 将 排序 时 间 从 两 趟 每 趟 37 分 钟 ， 减 少 到 第 一 趟 13 分 钟 
和 第 二 趟 18 分 钟 。 口 


11.5.3 磁盘 镜像 
有 时 为 两 个 或 更 多 的 磁盘 保留 同样 的 数据 拷贝 很 有 意义 。 这 些 磁 盘 被 称 做 相互 镜像 
(mirroD。 磁 盘 镜像 的 一 个 重要 动机 是 ， 无 论 哪 一 个 磁盘 头 文件 损坏 都 可 使 数据 幸免 于 难 ， 因 
为 已 损 磁盘 镜像 上 的 数据 仍然 可 读 。 为 增强 可 靠 性 而 设计 的 系统 常 使 用 磁盘 对 互 为 镜像 。 
然而 ， 镜 像 磁盘 也 能 提高 访问 数据 的 速度 。 回 忆 例 11.12 中 第 二 趟 的 讨论 。 讨论 中 可 见 ， 
如 果 非 常 仔细 地 安排 时 序 ， 最 多 时 可 装 人 4 个 块 。 这 些 块 来 自 4 个 不 同 的 有 序 表 ， 而 且 表 的 先前 


O 应 当 强 调 ， 这 个 方法 要 求 极 端 准确 地 执行 ， 而 且 只 有 在 这 样 做 有 重大 好 处 时 才 巴 以 尝试 如 果 不 小 心 ， 就 
会 有 极 大 的 风险 ， 那 就 是 在 一 个 记录 实际 达到 主 存 之 前 就 试图 读 这 个 记录 。 
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块 已 经 处 理 完 毕 。 但 是 ， 装 入 时 不 能 确定 选择 哪 四 个 表 会 得 到 新 块 。 这 样 ， 就 可 能 不 走运 地 发 
现 头 两 个 表 是 在 同一 个 磁盘 上 ， 或 者 头 三 个 表 中 的 两 个 是 在 同一 个 磁盘 上 。 

如 果 人 们 愿意 购买 和 使 用 单个 大 磁盘 的 4 个 拷贝 , 那么 就 能 保证 系统 总 是 能 一 次 检索 4 个 块 。 
也 就 是 说 ， 不 管 需要 哪 四 个 块 ， 都 能 把 每 个 块 分 配 到 4 个 磁盘 中 的 任何 一 个 ， 并 且 从 该 磁盘 读 
出 那个 块 。 

通常 ， 如 果 做 一 个 磁盘 的 m 个 拷贝 ， 就 能 并 行 地 对 任何 mr 个 块 进行 读 取 。 而 且 ， 如 果 一 次 要 
读 的 块 数 小 于 n， 那 么 通过 正确 地 选择 从 哪个 磁盘 读 ， 就 常常 能 获得 速度 提升 。 也 就 是 说 ， 可 
以 选择 其 磁头 最 靠近 要 读 的 那个 柱 面 的 可 用 磁盘 。 

与 使 用 单个 磁盘 相 比 ， 使 用 镜像 磁盘 既 不 提高 写 操作 的 速度 ， 也 不 降低 写 操作 的 速度 。 也 
就 是 说 ， 无 论 何 时 需要 写 一 个 块 ， 都 要 在 有 拷贝 的 所 有 磁盘 上 写 这 个 块 。 但 由 于 写 操作 可 以 并 
行 地 执行 ， 因 此 所 花费 的 时 间 与 单个 磁盘 大 致 相同 。 对 于 不 同 的 镜像 ， 磁 盘 的 写 操作 时 间 可 能 
有 微小 的 差别 ， 因 为 不 能 指望 镜像 磁盘 会 完全 同步 旋转 。 这 样 ， 当 一 个 磁盘 的 磁头 刚刚 错过 一 
个 块 时 ， 另 一 个 磁盘 的 磁头 可 能 正 准 备 越过 相同 块 的 相同 位 置 。 然 而 ， 这 些 旋 转 延 迟 上 的 差异 
最 终 会 达到 平均 值 ， 而 且 如 果 使 用 11.5.1 节 的 基于 柱 面 的 策略 ， 旋 转 延 迟 总 是 可 以 忽略 。 

11.5.4 磁盘 调度 和 电梯 算法 

在 某 些 情况 下 ， 另 一 个 提高 磁盘 访问 速度 的 有 效 方法 是 让 磁盘 控制 器 在 若干 个 请 求 中 选择 
谁 先 被 执行 。 当 系统 需要 按 一 定 的 顺序 读 或 写 磁 盘 块 时 ， 例 如 在 例 举 的 运行 归并 排序 法 的 某 些 
情况 下 ， 这 个 方法 无 法 产生 效用 。 可 是 ， 当 系统 支持 只 访问 少量 块 的 多 个 小 进程 时 ， 通 过 选择 
首先 要 处 理 的 进程 请 求 ， 常 常 可 提高 吞吐 量 。 

电梯 算法 (elevator algorithm ) 是 调度 大 量 块 请 求 的 一 个 简单 有 效 的 方法 。 此 方法 把 磁头 
的 移动 看 做 是 在 做 跨越 磁盘 的 扫描 ， 从 柱 面 最 内 圈 到 最 外 图 ， 然 后 再 返回 来 ， 就 好 像 电梯 在 做 
垂直 扫描 ， 从 建筑 物 的 底层 到 顶层 ， 然 后 再 折返 。 当 磁头 通过 柱 面 时 ， 如 果 有 一 个 或 多 个 该 柱 
面 上 块 的 请 求 ， 磁 头 就 停 下 来 。 根 据 请 求 ， 所 有 这 些 块 被 读 或 写 。 然 后 磁头 沿 着 其 正在 行进 的 
同一 方向 继续 移动 ， 直 至 遇 到 下 一 个 包含 要 访问 块 的 柱 面 。 当 磁头 到 达 其 行进 方向 上 的 某 一 个 
位 置 ， 而 该 位 署 的 前 方 不 再 有 访问 请 求 时 ， 磁 头 就 朝 相 反方 向 移动 。 

例 11.13 假设 现在 正在 调度 一 个 Megatron 747 磁 盘 ， HREH | 到 达 时 间 
该 磁盘 的 平均 寻 道 时 间 、 旋 转 延 迟 和 传输 时 间 分 别 为 
6.46, 4.17#10.25 ( 本 例 中 ， 所 有 时 间 均 以 毫秒 计算 )。 
假设 某 一 时 刻 存 在 着 对 柱 面 2000、6000 和 14 000 的 块 访 
问 请 求 。 磁 头目 前 位 于 柱 面 2000。 此 外 ， 在 晚 些 时 候 还 
有 3 个 对 块 的 访问 请 求 。 所 有 请 求 如 图 11-12 所 示 。 例 如 ， 
从 图 中 可 见 对 柱 面 4000 的 块 访问 请 求 是 在 10 毫 秒 时 产生 。 ”图 11-12 6 次 块 访问 请 求 的 到 达 时 间 

假定 每 个 块 访问 需要 0.25 毫 秒 传输 时 间 和 4.17 毫 秒 平 均 旋转 延迟 时 间 ， 即 无 论 寻 道 时 间 是 
多 少 ， 都 需要 为 每 一 次 块 访问 加 上 4.42 毫 秒 。 寻 道 时 间 可 通过 例 11.5 给 出 的 Megatron 747 的 规则 
计算 : 1 加 上 磁道 数 被 1000 除 。 现 在 来 看 如 果 使 用 电梯 算法 调度 会 发 生 什 么 情况 。 对 柱 面 2000 
的 第 一 个 请 求 不 需要 寻 道 ， 因 为 磁头 已 经 定位 在 那里 。 这 样 ， 在 4.42 时 刻 完成 第 一 次 访问 。 对 
柱 面 4000 的 请 求 这 时 尚未 到 达 ， 所 以 移动 磁头 到 柱 面 6000， 即 磁道 的 最 大 数字 方向 扫描 过 程 中 
的 下 一 “站 ”。 从 柱 面 2000 到 6000 花 费 的 寻 道 时 间 是 5 毫秒 ， 所 以 在 9.42 时 刻 到 达 ， 并 在 另 一 个 
4.42 毫 秒 内 完成 访问 。 这 样 ， 第 二 次 访问 在 13.84 时 刻 完成 。 在 这 个 时 间 之 前 ， 对 柱 面 4000 的 请 
求 已 经 到 达 , 但 是 由 于 在 7.42 时 刻 已 经 过 那个 柱 面 ， 所 以 在 下 一 次 经 过 之 前 不 会 回 到 那个 位 置 。 
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这样， 磁头 下 次 移动 到 柱 面 14 000， 花 费 了 9 毫秒 用 于 寻 道 ，4.42 毫 秒 用 于 旋转 和 传输 。 于 
是 ， 第 三 次 访问 在 27.26 时 刻 完 成 。 现 在 ， 对 柱 面 16 000 的 请 求 已 经 到 达 ， 所 以 磁头 继续 向 外 圈 
行进 。 这 时 需要 3 毫秒 的 寻 道 时 间 ， 所 以 本 次 访问 完成 时 间 是 在 27.26+3+4.42=34.68 时 刻 。 

在 这 个 时 刻 ， 对 柱 面 10 000 的 请 求 已 经 产生 ， 所 以 现在 还 剩 有 本 次 请 求 和 柱 面 4000 的 请 求 。 
磁头 将 向 内 圈 行 进 ， 处 理 这 两 次 请 求 。 图 11-13 总 结 了 各 个 请 求 处 理 的 时 间 。 

现在 用 “ 先 到 先 服务 ”这 样 更 朴素 的 方法 来 比较 电梯 算法 的 性 能 。 假 设 前 三 个 请 求 的 顺序 
是 2000、6000 和 14 000， 那 么 ， 这 前 三 个 请 求 的 处 理 方式 完全 相同 。 然 而 ， 这 时 要 回 到 柱 面 
4000 去 ， 因 为 它 是 第 四 个 到 达 的 柱 面 请 求 。 该 请 求 的 寻 道 时 间 是 11 毫 秒 ， 因 为 要 从 柱 面 14 000 
行进 到 4000, 行程 超过 了 磁盘 的 一 半 。 第 五 次 是 对 柱 面 16 000 的 请 求 ， 需 要 13 毫 秒 的 寻 道 时 间 。 
最 后 一 次 是 对 柱 面 10 000 的 请 求 ， 其 寻 道 时 间 是 7 毫秒 。 图 11-14 概 括 了 用 “ 先 到 先 服务 ”调度 
法 所 产生 的 活动 。 两 种 算法 相差 14 毫 秒 ， 看 起 来 似乎 不 是 很 显著 ， 但 是 请 注意 ， 在 这 个 简单 的 
例子 中 ， 请 求 数 较 少 ， 而 且 假 设 在 到 达 的 六 个 请 求 中 前 四 个 请 求 的 处 理 两 种 算法 没有 区 别 。 口 


请 求 的 柱 面 | “完成 时 间 请 求 的 柱 面 | 完成 时 间 





图 11-13 采用 电梯 算法 的 块 访 问 完 成 时 间 图 11-14 采用 先 到 先 服务 算法 的 块 访问 完成 时 间 


如 果 等 候 磁 盘 的 平均 请 求 数 增加 ， 电 梯 算 法 会 进一步 提高 吞吐 量 。 例 如 ， 如 果 等 候 请 求 池 
等 于 柱 面 数 ， 那 么 每 次 寻 道 将 只 跨越 少量 柱 面 ， 而 平均 寻 道 时 间 将 接近 于 最 小 。 如 果 请 求 池 增 
长 到 超过 柱 面 数 ， 那 么 在 每 个 柱 面 通常 会 有 一 个 以 上 的 请 求 。 磁 盘 控制 器 可 以 围绕 柱 面 来 对 请 
求 排序 ， 以 减少 平均 旋转 延迟 以 及 平均 寻 道 时 间 。 可 是 ， 如 果 请 求 池 增长 到 那么 多 ， 服 务 任何 
请 求 所 花费 的 时 间 就 会 变 得 非常 非常 大 。 下 面 的 例子 将 解释 这 种 情况 。 

11.14 假设 再 一 次 操作 Megatron 747 磁 盘 ， 它 有 16 384 个 柱 面 。 想 像 有 1000 个 磁盘 访问 
请 求 在 等 待 。 为 简单 起 见 ， 假 定 它们 都 是 不 同 柱 面 上 的 块 ， 每 16 个 柱 面 一 块 。 如 果 在 磁盘 的 一 
端 开始 模 跨 磁盘 扫描 ，1000 个 请 求 中 的 每 一 个 请 求 的 寻 道 时 间 为 1 毫秒 多 一 点 儿 ， 旋 转 延迟 时 
间 是 4.17 毫 秒 ， 传 输 时 间 是 0.25 毫 秒 。 这 样 每 5.42 毫 秒 处 理 一 个 请 求 ， 大 约 是 随机 块 查询 平均 
时 间 10.88 毫 秒 的 的 一 半 。 可 是 ， 全 部 1000 次 访问 需要 5.42 秒 ， 所 以 处 理 一 个 请 求 的 平均 延 时 是 
该 值 的 一 半 ， 即 2.71 秒 ， 这 是 一 个 相当 显著 的 延 时 。 

现在 ， 假 设 请 求 池 的 大 小 是 32 768， 为 简单 起 见 ， 假 设 每 个 柱 面 恰好 有 两 次 访问 。 这 种 情况 
下 ， 每 次 寻 道 时 间 是 1 毫秒 (每 次 访问 0.5 毫 秒 )， 当 然 传输 时 间 是 0.25 毫 秒 。 由 于 每 个 柱 面 上 有 两 个 
块 访问 ， 平 均 来 说 ， 当 磁头 到 达 那 个 磁道 时 ， 磁 头 与 两 个 块 中 较 远 的 那个 块 的 上 距离 将 是 绕 三 盘 _- 
周 路 程 的 13。 这 个 估算 的 证 明 错综复杂 ， 本 文 在 “等 待 两 个 块 中 的 后 个 块 ” 框 中 作 了 解释 。 

这 样 ， 两 个 块 的 平均 延迟 将 是 旋转 一 周 时 间 的 2/3 的 一 半 ， 即 二 xx8.33= 278 毫 秒 。 这 
样 就 把 访问 一 个 块 的 平均 时 间 减 少 到 0.5+0.25+2.78=3.53 毫 秒 ， 大 约 是 先 到 先 服 务 调度 算法 平 
均 时 间 的 1/3。 另 一 方面 ，32 768 次 访问 花费 的 总 时 间 为 116 秒 ， 所 以 处 理 _ 次 请 求 的 平均 延 时 
大 约 是 1 分 钟 。 5 
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等 待 两 个 块 中 的 后 一 个 块 

假设 有 两 个 块 分 布 在 一 个 柱 面 上 的 随机 位 置 。 设 这 两 个 位 置 为 xi 和 加， 以 圆周 的 分 数 
标识 ， 所 以 它们 的 取 值 范围 是 0 ~ 1。xl 和 xz 都 小 于 0 ~1 之 间 革 个 y 值 的 概 素 为 yy。 这 样 ，y 
的 概率 密度 就 是 y? 的 导数 2y。 也 就 是 说 ，y 取 某 个 给 定 值 的 概率 随 着 y 从 0 增 大 到 1 而 线性 


增 大 。y 的 平均 值 就 是 y 来 以 ) 的 概率 密度 的 定 积分 ， 即 2y? = 213 。 


11.5.5 预 取 和 大 规模 缓冲 

加 速 某 些 第 二 级 存储 器 算法 的 最 后 一 个 建议 称 为 预 取 (prefetching )， 有 时 也 称 做 双 缓 冲 
(double buffering) 在 某 些 应 用 中 ， 能 够 预测 从 磁盘 请 求 块 的 顺序 。 如 果 是 这 样 的 话 ， 就 能 在 
需要 这 些 块 之 前 将 它们 装 人 主 存 。 这 样 做 的 好 处 是 能 够 较 好 地 调度 磁盘 ， 通 过 采用 诸如 电梯 算 
法 等 ， 减 少 访问 块 所 需要 的 平均 时 间 。 例 如 ， 这 样 做 能 够 在 加 速 例 11.14 提 出 的 块 访问 同时 避 
免 该 例 处 理 请 求 所 带 来 的 很 长 的 延 时 。 l 

6111.15 ”作为 采用 双 缓 冲 的 一 个 例子 ， 再 次 考虑 TPMMS 的 第 二 趟 。 该 算法 通过 从 每 个 表 
取出 一 个 块 带 入 主 存 ， 归 并 了 16 个 有 序 子 表 。 如 果 有 很 多 有 序 子 表 要 归并 ， 以 至 于 从 每 个 子 表 
取出 一 个 块 就 会 填 满 主 存 ， 那 么 算法 就 不 可 能 再 有 改进 了 。 但 是 在 例子 中 , 还 有 很 多 主 存 没有 
使 用 。 例 如 ， 在 归并 期 间 ， 可 以 为 每 个 表 分 配 两 个 块 缓冲 区 ， 当 从 一 个 缓冲 区 选取 记录 归并 的 
同时 ， 可 以 把 磁盘 块 写 人 另 一 个 缓冲 区 。 当 一 个 缓冲 区 被 取 尽 时 ， 就 切换 到 相同 表 的 另 -一 个 组 
冲 区 ， 而 且 没有 任何 延 时 。 口 


然而 ， 例 11.15 的 方式 仍 要 花费 时 间 读 有 序 子 表 的 全 部 100 000 块 。 如 果 下 列 事实 成 立 ， 就 
能 够 把 11.5.1 节 的 基于 柱 面 策略 与 预 取 结合 起 来 ， 

1. 在 整个 连续 柱 面 上 存储 有 序 子 表 ， 每 个 磁道 上 的 块 都 是 有 序 子 表 的 连续 块 。 

2. 每 当 希 要 一 个 给 定 表 中 的 更 多 记录 时 ， 读 整个 磁道 或 整个 的 柱 面 。 

例 11.16 ”为 了 体会 按 磁 道 大 小 或 按 柱 面 大 小 读 的 优越 性 ， 再 次 考虑 TPMMS 的 第 二 趟 。 主 
存储 器 为 16 个 表 中 的 每 一 个 设置 两 个 磁道 大 小 的 缓冲 区 。 已 知 Megatron 747 一 个 磁道 的 大 小 是 
0.5MB ， 所 以 需要 的 主 存 总 空间 大 约 是 16MB 。 因 为 可 以 从 任何 一 个 扇 区 开始 读 -一 个 磁道 ， 所 
以 读 一 个 磁道 的 时 间 大 体 是 平均 寻 道 时 间 加 上 磁盘 转动 -一周 的 时 间 ， 即 6.46+8.33=14.79 毫 秘 。 
由 于 朗读 16 个 有 序 子 表 ， 由 于 需要 读 196 个 柱 面 上 的 所 有 块 ， 即 3136 个 磁道 ， 所 以 读 全 部 数据 
的 总 时 间 大 约 是 46 秒 。 

如 果 每 个 有 序 子 表 拥 有 两 个 柱 面 大 小 的 缓冲 区 ， 在 一 个 缓冲 区 正在 使 用 的 同时 填 人 另 一 个 
缓冲 区 ， 那 么 就 能 够 做 得 更 好 。 由 于 Megatron 747 的 一 个 柱 面 有 16 个 磁道 ， 因 此 使 用 32 个 4MB 
的 缓冲 区 ， 即 128MB。 虽 然 在 例 中 说 主 存 中 只 有 100MB 可 用 于 排序 ,但 是 128MB 也 是 合理 的 。 

采用 柱 面 大 小 的 缓冲 区 ， 每 个 柱 面 只 需 寻 道 一 次 。 这 样 ， 寻 道 时间 加 上 读 一 个 柱 面 的 所 有 
16 个 磁道 的 时 间 是 6.46+16 x 8.33=140 毫 秒 。 读 全 部 196 个 柱 面 的 时 间 是 196 乘 以 上 述 时 间 ， 即 
大 约 27 秒 。 口 


写 的 思路 与 刚刚 讨论 过 的 读 的 思路 类 似 。 按 照 预 取 的 思路 ， 只 要 不 需要 立即 再 次 使 用 缓冲 
区 ,就 可 以 延迟 该 缓冲 块 的 写 。 这 个 策略 允许 避免 等 候 块 被 写 人 磁盘 时 的 延 时 。 

然而 ， 更 为 强 有 力 的 策略 是 采用 大 的 输出 缓冲 区 ( 磁道 大 小 或 柱 面 大 小 )。 如 果 应 用 允许 
写 人 这 样 大 的 块 ， 那 么 基本 上 能 消除 寻 道 时 间 和 旋转 延迟 ， 并 以 磁盘 的 最 大 传输 速率 写 盘 。 例 
如 ， 如 果 修 改 了 排序 算法 第 二 趟 的 写 操作 部 分 ， 具 有 两 个 容量 各 为 4MB 的 输出 缓冲 区 ， 那 么 就 
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能 用 有 序 记 录 填 充 一 个 缓冲 区 ， 并 且 在 用 下 一 个 有 序 记 录 填 充 另 一 个 缓冲 区 的 同时 ， 将 填 人 第 
一 个 缓冲 区 的 记录 写 人 一 个 柱 面 。 那 么 ， 像 例 11.16 中 的 读 时 间 一 样 ， 写 时 间 将 是 27 秒 ， 这 样 
第 二 趟 总 共 花 费 将 少 于 1 分 钟 ， 刚 好 与 例 11.11 改 进 的 第 一 趋 一 样 。 大 体 说 来 ， 将 按 柱 面 组 织 数 
据 、 柱 面 大 小 的 缓冲 以 及 预 取 方法 相 结 合 ， 可 以 在 少 于 2 分 钟 内 完成 一 个 排序 ， 而 通过 朴素 的 
磁盘 管理 策略 完成 这 个 排序 则 需要 花费 74 分 钟 。 
11.5.6 对 策略 和 折 中 的 小 结 
本 节 讨 论 了 能 改进 磁盘 系统 性 能 的 5 种 不 同 的 “手段 *。 它 们 是 : 
1. 按 柱 面 组 织 数据 。 
2. 用 若干 个 磁盘 代替 一 个 磁盘 。 
3. 镜像 磁盘 。 
4. 通过 电梯 算法 调度 请 求 。 
5. 按 磁 道 大 小 或 柱 面 大 小 预 取 数据 。 
另外 还 考虑 了 它们 在 两 种 情况 下 的 效果 ， 这 两 种 情况 代表 了 磁盘 访问 请 求 的 两 个 极端 , 
a) 一 种 相当 常规 的 情况 ， 以 两 趟 多 路 归并 排序 法 (TPMMS ) 第 一 趟 为 例 ， 在 这 种 情况 下 ， 
块 可 以 按 事先 预测 的 次 序 读 和 写 ,并 且 只 有 一 个 使 用 磁盘 的 进程 。 
b) 像 航 班 订 票 或 银行 账目 改变 那样 的 短 进 程 的 集合 ， 它 们 并 行 地 执行 ， 共 享 同一 磁盘 ， 并 
且 不 能 事先 预测 。 两 趟 多 路 归并 排序 法 的 第 二 趟 就 具有 这 样 一 些 特性 。 
下 面 总 结 前 面 提 到 的 每 一 种 方法 对 于 这 两 种 不 同 应 用 类 型 ， 以 及 介 于 这 两 者 之 间 的 应 用 类 
型 的 优点 和 缺点 : 
基于 柱 面 的 数据 组 织 
“优点 : 对 于 类 型 (a ) 的 应 用 效果 极 佳 。 这 里 访问 可 事先 预测 ， 并 且 仅 有 一 个 进程 正在 使 
用 磁盘 。 
“ 缺点 : 对 类 型 (b ) 的 应 用 没有 任何 帮助 。 这 里 访问 不 可 预测 。 
多 磁盘 
。 优 点 : 对 于 这 类 应 用 ， 都 能 增加 处 理 读 / 写 请 求 的 速率 。 
* 问题 : 对 同一 磁盘 的 多 个 读 或 写 请 求 不 能 同时 满足 ， 所 以 加 速 系数 可 能 小 于 磁盘 数 增加 
的 系数 。 
“缺点 : 若干 小 磁盘 的 费用 超过 具有 相同 总 容量 的 单个 磁盘 的 费用 。 
镜像 
* 优点 : 对 这 两 种 类 型 的 应 用 ， 均 能 增加 处 理 读 / 写 请 求 的 速率 ， 而 且 不 存在 多 磁盘 中 遇 到 
的 访 间 冲突 的 问题 。 
“优点 ; 改善 了 所 有 应 用 的 容错 性 。 
“缺点 : 必须 付出 两 个 或 多 个 磁盘 的 代价 ， 但 只 能 得 到 一 个 磁盘 的 存储 容量 。 
电梯 算法 
“ 优点: 当 对 块 的 访问 不 可 预测 时 ， 减 少 读 / 写 块 的 平均 时 间 。 
“问题 ; 在 有 许多 磁盘 访问 请 求 等 候 的 情况 下 ， 这 种 算法 最 有 效 ， 但 也 因此 使 得 这 些 请 求 
处 理 的 平均 延 时 较 高 。 
预 取 / 双 缓冲 
" 优点 : 当 需 要 访问 的 块 已 知 但 请 求 的 时 间 与 数据 相关 时 ， 可 加 速 访问 ， 如 同 TPMMS 的 第 
二 趟 。 
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。 缺 点 : 需要 额外 的 主 存 缓冲 区 。 当 访问 是 随机 时 没有 任何 帮助 。 


1.5.7 习题 


习题 11.5.1 ”假设 为 Megatron 747 磁 盘 调 度 UO 请 求 ， 磁 头 的 初始 位 置 在 磁道 8000， 访 问 请 


求 如 图 11-15 所 示 。 问 在 下 列 两 种 情况 下 ， 每 一 种 请 一 
求 何 时 可 以 完全 得 到 服务 ? apron [wean 
a) 采用 电梯 算法 ( 开始 移动 任意 方向 )。 
b) 采用 先 到 先 服务 调度 。 





习题 11.5.2 ”假设 使 用 两 全 Megatron 747 磁 盘 互 相 作 — -一 一 
为 镜像 。 同 时 ， 采 用 相关 技术 使 第 一 个 磁盘 的 磁头 图 11-15 6 个 块 访问 请 求 的 到 达 时 间 
位 于 柱 面 靠 内 的 一 半 ， 第 二 个 磁极 的 磁头 位 于 柱 面 靠 外 的 一 半 ， 而 不 再 允许 从 任 一 个 磁盘 
读 任何 的 块 。 假 设 读 请 求 是 针对 随机 的 磁道 ， 并 且 始 终 不 必 去 写 ， 那 么 问 : 

a) 系统 读 块 的 平均 速率 是 多 少 ? 

b) 这 个 速率 与 无 任何 约束 的 镜像 Megatron 747 磁 盘 的 平均 速率 相 比 如 何 ? 

c) 你 认为 该 系统 的 缺点 是 什么 ? 
习题 11.5.3 ”讨论 请 求 的 到 达 速 率 、 电 梯 算 法 的 吞吐 量 和 请 求 的 平均 延 时 之 间 的 关系 。 为 
使 问题 简化 ， 作 如 下 假设 : 
即使 是 没有 对 最 两 端 柱 面 的 请 求 ， 电 梯 算 法 的 扫描 总 是 从 最 内 圈 到 最 外 圈 ， 或 者 相反 。 
当 扫描 启动 时 ， 只 有 那些 已 经 在 等 待 的 请 求 会 被 处 理 ， 而 扫描 正在 前 进 时 到 达 的 请 求 不 会 
被 处 理 ， 即 使 磁头 通过 它们 的 柱 面 也 如 此 © 。 
在 一 次 扫描 中 决 不 会 有 同一 柱 面 上 的 两 个 块 的 请 求 在 等 候 。 
令 4 是 交互 到 达 率 ， 即 块 访问 请 求 之 间 的 时 间 间 隔 。 假 设 系统 处 于 稳定 状态 ， 即 它 已 经 进 
行 了 长 时 间 的 请 求 接收 和 回答 。 对 于 Megatron 747 磁 盘 ， 计 算 下 列 值 (表示 为 4 的 函数 ); 
* a) 执行 一 次 扫描 所 花费 的 平均 时 间 。 

b) 在 一 次 扫描 中 得 到 服务 的 请 求 数 。 

c) 一 次 请 求 等 候 服务 的 平均 时 间 。 
习题 11.5.4 ”从 例 11.12 可 以 看 到 ， 怎 样 通过 把 要 排序 的 数据 分 散 到 4 个 磁盘 上 ， 使 得 能 够 
同时 读 取 一 个 以 上 的 块 的 方法 。 假 设 : 在 归并 阶段 产生 对 随机 磁盘 抉 的 读 请 求 ， 并 且 所 有 
读 请 求 都 会 被 处 理 ， 除 非 它们 要 访问 的 磁盘 目前 正在 为 另外 一 个 请 求 服务 。 问 任何 时 刻 正 
在 为 请 求 服务 的 磁盘 平均 数 是 多 少 ? TER: 有 两 个 使 问题 简化 的 提示 : 

1. 一 旦 一 个 读 块 请 求 不 能 继续 ， 那 么 归并 必须 停止 ， 并 且 不 再 产生 请 求 ， 因 为 产生 这 

个 未 被 满足 的 读 块 请 求 的 子 表 已 经 没有 任何 数据 。 

2. 只 要 归并 能 继续 进行 , 它 就 将 产生 一 个 读 请 求 ， 因 为 与 满足 一 个 读 请 求 的 时 间 相 比 ， 

主 存 归 并 基本 上 不 花费 时 间 。 
习题 11.5.5 ”如 果 要 从 一 个 柱 面 上 读 k 个 随机 选 定 的 块 ， 那么 在 经 过 所 有 的 块 之 前 ， 必 须 线 
着 柱 面 行走 的 平均 距离 有 多 远 ? 


@ 这 个 假设 的 目的 在 于 避免 不 得 不 涉及 的 这 样 一 个 事实 : 电梯 算法 的 一 次 典型 扫描 开始 进行 得 很 快 ， 因 为 
刚刚 经 过 的 这 些 区 域 很 少 有 等 待 着 的 请 求 ; 当 磁 头 移 人 最 近 未 曾经 过 的 一 个 磁盘 区 域 时 ， 扫 描 速 度 提 升 。 
就 其 本 身 而 言 ， 对 请 求 密度 在 扫描 行进 过 程 中 变化 的 分 析 是 一 项 有 趣 的 实践 。 
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11.6 磁盘 故障 


在 本 节 和 下 一 节 ， 考 虑 磁盘 可 能 发 生 故 障 的 方式 ， 以 及 采取 什么 措施 来 减轻 这 些 故 障 。 

1, 最 常见 的 一 种 故障 形式 是 间断 性 故障 (intermittent failure )， 读 或 写 一 个 扇 区 的 某 次 党 
试 不 成 功 ,但 是 经 过 反复 尝试 ， 又 能 成 功 地 读 或 写 。 

2. 更 严重 的 一 种 故障 形式 是 ， 一 个 或 多 个 二 进 制 位 永久 地 损坏 ,不管 尝试 多 少 次 都 不 能 正 
确 地 读 一 个 扇 区 ， 这 种 错误 形式 称 为 介质 损坏 。 

3. 一 种 相关 的 错误 类 型 是 写 故 障 (write failure )。 在 这 种 故障 中 ， 当 试图 写 一 个 扇 区 时 ， 
既 不 能 正确 地 写 ， 也 不 能 检索 先前 写 人 的 扇 区 。 该 故障 的 一 种 可 能 的 原因 是 在 写 遍 区 的 过 程 中 
发 生 了 供电 中 断 。 

4. 磁盘 故障 的 最 严重 形式 是 磁盘 崩 演 ， 在 这 种 故障 中 ， 整 个 磁盘 突然 变 为 永久 不 可 读 。 

本 节 讨 论 一 种 简单 的 磁盘 故障 模型 。 奇 偶 校 验 将 作为 检测 间断 性 故障 的 方法 。 另 外 ， 还 将 
讨论 “稳定 的 存储 ”这 样 一 种 组 织 磁盘 的 技术 ， 这 种 技术 使 介质 损坏 或 写 故 障 不 会 导致 数据 永 
久 性 损失 。 在 11.7 节 中 讨论 一 般 被 称 为 “RAID” 的 解决 磁盘 崩溃 问题 的 技术 。 

11.6.1 间断 性 故障 

磁盘 肩 区 通常 伴随 着 一 些 元 余 位 一 起 存储 ， 对 此 将 在 11.6.2 节 讨论 。 这 些 位 的 目的 是 能 够 识 
别 正 在 从 扇 区 读 出 的 内 容 是 否 正确 。 通 过 它们 同样 能 够 判断 写 过 的 扇 区 是 否 已 被 正确 地 写 人 。 

磁盘 读 的 一 种 有 用 模式 是 读 函 数 返回 一 对 值 (w,s )， 这 里 w 代 表 被 读 扇 区 中 的 数据 ，s* 代 表 
一 个 表示 读 是 否 成 功 的 状态 位 ， 即 能 否 相信 w 是 该 扇 区 的 真实 内 容 。 在 间断 性 故障 中 ， 可 以 多 
次 得 到 “ 坏 ” 状 态 ， 但 是 如 果 读 函数 被 重复 足够 多 次 ( 100 次 是 一 般 的 限制 )， 那 么 最 终 会 返回 
一 个 状态 “好 ”， 而 且 还 可 相信 随 着 这 个 状态 一 起 返回 的 数据 是 磁盘 扇 区 的 正确 内 容 。 在 11.6.2 
节 中 将 看 到 ， 有 一 种 被 欺骗 的 可 能 ， 即 虽然 状态 是 “好 ”， 但 是 返回 的 数据 错误 。 然 而 ， 如 果 
增加 扇 区 的 元 余 度 ， 就 可 以 按照 所 希望 的 降低 出 现 这 种 现象 的 概率 。 

鹿 区 的 写 也 能 通过 观察 所 写 内 容 的 状态 获 益 。 在 11.3.5 节 中 将 会 看 到 ， 可 以 在 写 扇 区 之 后 
试 着 读 各 个 扇 区 ， 并 且 确 定 写 是 否 成 功 。 执 行 检 查 的 一 个 直截了当 的 方法 是 读 这 个 扇 区 ， 并 且 
与 打算 写 的 扇 区 进行 比较 。 然 而 ， 与 在 磁盘 控制 器 中 进行 完全 比较 相 比 ， 更 简单 的 方法 是 读 这 
个 肩 区 然后 看 看 其 状态 是 否 为 “好 ”。 如 果 是 “好 ”状态 ， 就 假定 写 正确 ， 而 如 果 状 态 是 “ 坏 ”， 
那么 显然 写 不 成 功 ， 并 且 必 须 重 写 。 注 意 ， 正 如 读 的 情况 一 样 ， 如 果 状 态 是 “好 ”， 但 是 实际 
上 号 不 成 功 ， 那 么 则 是 被 欺骗 了 。 另 外 也 正如 读 的 情况 一 样 ， 能 够 使 出 现 这 种 情况 的 概率 降低 
到 希望 的 水 平 。 

11.6.2 校 验 和 

一 个 读 操作 如 何 能 决定 一 个 扇 区 的 好 / 坏 状态 ， 乍 看 起 来 不 可 思议 。 然 而 ， 用 于 当前 磁盘 
驱动 器 中 的 这 项 技术 相当 简单 : 每 个 扇 区 有 若干 个 附加 位 ， 称 为 校 验 和 (checksum )， 附 加 位 
的 设置 取决 于 存储 在 那个 扇 区 的 数据 位 的 值 。 在 读 出 时 ， 如 果 发 现 校 验 和 对 该 数据 位 不 合适 ， 
那么 就 返回 状态 “ 坏 ”， 否 则 就 返回 状态 “好 ”。 尽 管 除了 不 正确 的 位 碰巧 与 正确 位 有 相同 的 校 
验 码 ( 因此 不 正确 的 位 将 被 赋予 状态 “好 ”) 之 外 ， 还 存在 着 数据 位 被 错 读 的 一 种 较 小 的 可 能 
性 。 但 是 ， 通 过 使 用 足够 多 的 校 验 和 位 ， 就 能 够 将 这 种 概率 减少 到 所 希望 的 低 水 平 。 

校 验 和 的 一 种 简单 形式 是 基于 肩 区 内 所 有 位 的 奇偶 性 (parity )。 如 果 在 二 进 制 的 集合 中 有 
奇数 个 1， 就 称 数据 有 夺 数 奇偶 性 ， 或 者 说 它们 的 奇偶 位 是 1。 同 样 ， 如 果 在 二 进 制 位 的 集合 中 
有 偶数 个 1， 就 称 数 据 位 有 偶数 奇偶 性 ,或 者 说 它们 的 奇偶 位 是 90。 从 而 ， 
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。 在 二 进 制 位 的 集合 与 它们 的 奇偶 位 中 ， 1 的 个 数 总 是 偶数 。 

当 写 一 个 肩 区 时 , 磁盘 控制 器 能 计算 出 奇偶 位 , 并 将 它 附 加 到 肩 区 中 的 二 进 制 位 的 序列 中 。 
这 样 ， 每 个 扇 区 将 有 偶数 奇偶 性 。 

例 11.17 ”如果 扇 区 中 二 进 制 位 序列 是 01101000， 那 么 就 有 奇数 个 1， 所 以 奇偶 位 是 1。 如 
果 这 个 序列 后 面 加 上 它 的 奇偶 位 ， 便 有 011010001。 如 果 所 给 的 数据 位 序列 是 11101110， 有 偶 
数 个 1， 而 奇偶 位 为 0。 序 列 后 面 加 上 它 的 奇偶 位 便 是 111011100。 注 意 ， 加 上 一 位 奇偶 位 后 构 
成 的 每 一 个 9 位 序列 有 偶数 奇偶 性 。 口 


在 读 或 写 数据 位 及 其 奇偶 位 的 过 程 中 ， 任 何 一 个 位 错误 都 会 导致 具有 奇数 奇偶 性 的 位 序列 
产生 ， 也 就 是 说 序列 中 1 的 个 数 是 奇数 。 计 算 1 的 个 数 ， 如 果 一 个 扇 区 有 奇数 奇偶 性 就 判定 存在 
一 个 错误 ， 这 对 于 磁盘 控制 器 来 说 很 容易 。 

当然 , 扇 区 可 能 有 一 个 以 上 的 位 出 错 。 如 果 这 样 ， 二 进 制 位 1 的 个 数 为 偶数 的 概率 是 50%， 
此 时 检测 不 到 错误 。 如 果 保 持 若干 个 奇偶 校 验 位 ， 就 能 增加 检测 出 大 量 错 误 的 机 会 。 例 如 ， 保 
留 8 位 奇偶 校 验 位 ， 其 中 一 位 用 于 检测 每 个 字 节 的 第 一 位 ， 另 一 位 用 于 检测 每 个 字 节 的 第 二 位 ， 
等 等 ， 直 到 奇偶 位 的 第 八 位 检测 每 个 字 节 的 最 后 一 位 。 那 么 ， 关 于 大 规模 的 错误 ， 检 测 出 任何 
一 个 奇偶 位 错误 的 概率 是 50%，8 位 都 检测 不 出 错误 的 机 会 仅仅 是 1/2;:， 即 1/256。 一 般 地 说 ， 
如 果 用 n 个 独立 位 作为 校 验 和 ， 漏 掉 一 个 错误 的 机 会 仅 为 1/2*。 例 如 ， 用 4 字 节 作为 校 验 和 ， 那 
么 大 约 在 40 亿 次 中 仅 有 一 次 错误 不 能 被 检测 出 来 。 

11.6.3 稳定 存储 

尽管 校 验 和 的 确 几 乎 能 正确 地 检测 出 介质 故障 或 读 写 故障 的 存在 ， 但 是 它 不 能 帮助 纠正 错 
误 。 此 外 ， 写 操作 时 还 可 能 陷 人 一 种 困境 : 覆盖 了 一 个 肩 区 先前 的 内 容 ， 但 是 又 不 能 读 出 新 的 
内 容 。 这 种 现象 在 某 种 情况 下 很 严重 ， 例 如 ， 当 正 准 备 将 一 个 小 的 增 额 加 到 账目 余额 中 去 时 发 
生 此 类 故障 ,原始 余额 和 新 的 余额 均 已 于 失 。 如 果 能 确定 扇 区 的 内 容 是 新 的 余额 还 是 旧 的 余额 ， 
那么 只 需要 判定 写 操作 是 否 成 功 即 可 。 

为 了 处 理 上 述 问题 ， 可 以 在 一 个 磁盘 或 多 个 磁盘 上 执行 一 个 称 为 稳定 奇 储 ( stable storage ) 
的 策略 。 总 的 思想 是 ， 扇 区 是 成 对 的 ， 每 一 对 代表 一 个 扇 区 内 容 xX。 把 代表 X 的 扇 区 对 分 别称 
fi “An” XL 和 “ 右 ” 找 贝 Xs 。 进 一 步 再 假定 这 两 个 拷贝 用 足够 多 的 奇偶 校 验 位 来 写 ， 以 便 
考虑 奇偶 校 验 时 ， 能 排除 看 上 去 像 是 好 扇 区 而 实际 上 是 坏 扇 区 这 种 现象 的 可 能 性 。 于 是 假定 ， 
如 果 读 函数 对 到 或 称 中 的 任何 一 个 返回 (w， 好 )， 那 么 w 是 X 的 真 值 。 稳 定 存储 的 写 策略 是 ， 

1. 写 X 的 值 到 X 。 检 查 返 回 值 的 状态 是 否 为 “好 ”， 即 在 写 人 拷贝 中 奇偶 校 验 位 正确 。 如 
果 不 是 “好 ”， 则 反复 写 。 如 果 在 若干 次 写 尝试 之 后 ， 仍 没有 成 功 地 将 X BAX, WU 
区 中 有 一 个 介质 故障 ， 必 须 采 用 以 备用 扇 区 代替 X, 一 类 的 补救 措施 。 

2. 对 Xx 重复 步骤 1。 

稳定 存储 的 读 策略 是 ; 

1. 读 以 获得 X 的 值 。 如 果 返 回 状态 是 “ 坏 ”， 则 反复 读 若干 次 。 如 果 最 终 返回 了 带 有 状 
态 “ 好 ”的 值 ， 则 取 这 个 值 为 X。 

2. 如 果 不 能 读 X， 则 用 Xr 重复 步 又 1。 

11.6.4 稳定 存储 的 错误 处 理 能 力 

11.6.3 节 描述 的 策略 能 够 校正 若干 不 同 种 类 的 错误 。 对 此 概述 如 下 : l 

1. 介质 故障 。 在 将 X 存 人 扇 区 六 和 Xa 后 ， 如 果 两 者 中 有 一 个 出 现 介质 故障 并 且 变 为 永久 不 
可 读 ， 总 是 能 从 另 一 个 扇 区 读 取 X。 如 果 Xw 有 故障 而 Xi 没有 故障 ， 那 么 读 策略 根本 不 考虑 x 就 
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SERIE WAHOBEX,, Xe 故障 将 在 下 一 次 试图 往 X 中 写 新 值 时 被 发 现 。 如 果 仅仅 是 XL 有 故障 ， 那 么 在 
任何 一 次 读 Xi 的 尝试 中 都 不 能 得 到 X 的 “好 ”状态 。( 前 节 中 曾 假设 一 个 坏 扇 区 将 总 是 返回 
“ 坏 ” 状 态 ， 即 使 实际 上 有 一 个 返回 “好 ”的 极 小 机 会 时 也 如 此 ， 这 是 由 于 所 有 奇偶 校 验 位 磁 
巧 都 匹配 造成 的 。) 这 样 ， 就 将 进而 执行 读 算法 的 步骤 (2)， 并 正确 地 从 XER X。 注 意 ， 如 果 
XL 和 Xx 两 者 都 有 故障 ， 那 么 就 不 能 读 取 六 ， 但 是 两 者 都 发 生 故 障 的 概率 非常 小 。 

2. 写 故 障 。 假 设 当 写 X 的 时 候 ， 有 一 个 系统 故障 ,例如 电源 断 电 ， 那 么 X 在 主 存 中 可 能 
丢失 ， 同 时 写 人 的 X 的 拷 册 也 将 被 纂 改 。 例 如 ， 半 个 扇 区 可 能 已 写 人 了 X 的 部 分 新 值 ， 同 时 
另 一 半 扇 区 仍 保留 着 原来 的 值 。 当 系统 变 为 可 用 时 ， 通 过 测试 X 和 Xe BM X 的 旧 值 或 者 
新 值 。 可 能 的 情况 有 以 下 几 种 : 

(a) 故障 在 写 Xi 的 时 候 发 生 。 那 么 将 发 现 Xi 的 状态 是 “ 坏 ”。 但 是 ， 由 于 还 没有 写 Xr， 它 
的 状态 将 是 “好 ”( 除非 在 Xe 中 同时 发 生 了 介质 故障 ， 通 常 这 种 概率 极 小 的 情况 排除 在 外 )。 
由 此 就 能 够 获得 X 的 旧 值 。 另 外 也 可 以 将 Xe NB XL, 修复 Xi 的 故障 。 

O 故障 在 写 Xi 之 后 发 生 。 那 么 ， 可 以 预计 趟 .将 有 “好 ”状态 ,并且 可 以 从 XL 读 取 X 的 新 
值 。 注 意 ，Xx 可 能 有 “ 坏 ” 状 态 ， 如 果 那 样 的话 ， 应 该 将 Xi 拷贝 到 Xe, 

11.6.5 习题 
习题 11.6.1 计算 下 列 位 序列 的 奇偶 位 : 
* a) 00111011 
b) 00000000 
c) 10101101 

习题 11.6.2 ”如 果 在 串 末 附 加 一 个 位 作为 该 串 各 奇数 位 置 的 奇偶 位 ， 附 加 另 一 个 位 作为 该 

串 各 偶数 位 置 的 奇偶 位 ， 就 有 了 与 一 个 串 相关 的 两 个 奇偶 位 。 按 这 种 方法 找 出 习题 11.6.1 

中 的 每 一 对 奇偶 位 。 


11.7 从 磁盘 崩 演 中 恢复 


本 节 将 考虑 最 严重 的 磁盘 故障 一 一 “磁头 损坏 ”， 其 中 数据 被 永久 性 地 破坏 。 在 这 个 事件 
中 ， 如 果 数 据 没 有 备份 到 另 一 介质 中 ， 例 如 在 11.5.3 节 中 讨论 的 磁带 备份 系统 ， 或 者 一 个 镜像 
磁盘 ， 那 么 就 根本 不 可 能 做 任何 事情 来 恢复 数据 。 这 对 于 重要 的 DBMS 应 用 如 银行 和 其 他 金融 

的 应 用 、 航 空 公司 或 者 其 他 预订 数据 库 、 库 存 管 理 系统 以 及 其 他 许多 应 用 来 说 是 一 场 灾难 。 

已 经 有 许多 成 功 的 开发 方案 用 于 减少 因 磁 盘 月 溃 造成 数据 丢失 带 来 的 风险 。 它 们 通常 涉及 
到 元 余 技 术 ， 这 种 技术 扩展 了 11.6.2 节 中 讨论 的 奇偶 校 验 思想 以 及 11.6.3 节 中 讨论 的 复制 扇 区 的 
思想 等 。 这 类 策略 的 一 般 术 语 是 RAID (Redundant Arrays of Independent Disks， 宛 余 独立 磁盘 
阵列 ) 9。 这 里 ， 将 初步 讨论 称 为 RAID 4 级 、5 级 和 6 级 的 三 种 方案 。 这 些 RAID 方 案 也 用 于 处 
理 11.6 节 中 讨论 的 故障 模型 : 介质 故障 和 由 临时 系统 故障 引起 的 单 扇 区 数据 丢失 。 
11.7.1 磁盘 的 故障 模型 

为 了 开始 关于 磁盘 崩溃 的 讨论 ， 首 先 需要 考虑 故障 的 统计 数据 。 描 述 故障 状态 的 最 简单 方 
法 是 使 用 平均 故障 时 间 (mean time to failure) 参数 。 这 个 数据 是 时 间 长 度 ， 在 这 个 时 间 内 ， 
一 组 磁盘 的 50% 将 发 生 灾难 性 故障 ， 也 就 是 说 ， 有 磁头 损坏 ， 所 以 它们 就 不 再 是 可 读 的 。 对 于 


O RT, 缩写 词 RAID 被 解释 为 “Redundant Array of Inexpensive Disks”( 宛 余 廉价 磁盘 阵列 )， 这 个 合意 可 
能 仍 出 现在 文献 中 。 
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当今 的 磁盘 ， 平 均 故 障 时间 大 约 是 10 年 。 

使 用 这 个 数字 的 最 简单 方法 是 假设 一 年 
中 有 十 分 之 一 的 磁盘 发 生 故 障 。 这 样 ， 磁 盘 
生存 的 比率 是 一 个 指数 函数 。 更 实际 情形 是 ， 
磁盘 生存 的 比率 看 起 来 更 像 图 11-16。 就 大 多 
数 类 型 的 电子 设备 而 论 ， 许 多 磁盘 故障 发 生 
在 生命 周期 的 早期 ， 这 由 磁盘 制造 中 的 微小 
缺陷 造成 。 这 些 缺 陷 的 大 部 分 有 望 在 出 厂 前 时 间 一 > 
发 觉 ， 但 是 有 些 缺 陷 并 没有 在 数 月 内 暴露 出 m 
来 。 一 个 没有 经 历 早期 故障 的 磁盘 有 可 能 工 N16 FASE FFB 
作 许 多 年 。 在 生命 周期 的 后 期 ， 像 “磨损 和 破裂 ”这 样 的 因素 以 及 积聚 的 灰尘 微粒 的 影响 都 增 
加 了 磁盘 损坏 的 机 会 。 

然而 ， 磁 盘 甬 省 的 平均 时 间 与 数据 丢失 的 平均 时 间 未 必 相 同 。 原 因 是 存在 着 若干 可 用 的 方 
案 可 以 保证 一 个 磁盘 发 生 故障 时 ， 有 另外 的 磁盘 帮助 恢复 故障 盘 的 数据 。 本 节 的 剩余 部 分 将 研 
究 最 常见 的 方案 。 

每 一 个 方案 初始 时 都 有 一 个 或 多 个 保存 数据 的 磁盘 ( 这 些 盘 被 称 做 数据 盘 )， 再 加 上 一 个 
或 多 个 保存 信息 的 磁盘 ， 这 些 信息 完 全 由 数据 盘 的 内 容 所 决定 。 后 者 被 称 做 元 余 盘 。 当 一 个 . 
数据 盘 或 元 余 盘 发 生 磁 盘 崩溃 时 ， 可 用 其 他 的 磁盘 恢复 故障 磁盘 ， 从 而 保证 没有 任何 信息 永 
久 性 丢失 。 

11.7.2 镜像 元 余 技 术 

正如 11.5.3 节 讨论 过 的 ， 最 简单 的 方案 是 镜像 各 个 磁盘 。 一 个 磁盘 是 数据 盘 ， 另 一 个 是 元 
余 盘 。 在 本 方案 中 ， 哪 个 作 数 据 盘 ， 哪 个 作 宛 余 盘 无 关 紧 要 。 作 为 防止 数据 于 失 的 镜像 ， 常 党 
被 称 为 RAID 1 级 。 它 给 出 一 个 存储 器 丢失 的 平均 时 间 ， 正 如 下 面 的 例子 所 示 ， 这 个 时 间 比 磁 
盘 平 均 故障 时 间 长 得 多 。 事实 上 , 借助 镜像 和 将 讨论 的 其 他 元 余 方 案 , SHEER RE, 
在 修复 第 一 个 磁盘 损坏 的 同时 ， 第 二 个 磁盘 也 损坏 了 。 

例 11.18 ”假设 每 个 磁盘 的 平均 故障 时 间 为 10 年 。 通 常 认 为 一 个 磁盘 出 现 故障 的 机 会 是 每 
年 10%。 如 果 磁 盘 被 镜像 ， 当 发 生 磁 盘 故 障 时 ， 只 需要 用 一 个 好 盘 代替 它 ， 并 且 将 镜像 磁盘 找 
贝 到 新 磁盘 上 。 最 终 ， 有 了 两 个 相互 镜像 的 磁盘 ， 并 且 系 统 被 恢复 到 它 的 早先 的 状态 。 

可 能 造成 错误 的 惟一 事件 是 在 拷贝 期 间 镜像 磁盘 又 出 现 故障 。 现 在 ， 至 少 有 部 分 数据 两 个 
拷贝 都 已 经 丢失 ， 而 且 没 有 任何 办 法 恢复 。 

但 是 ， 这 类 事件 序列 发 生 的 频繁 程度 如 何 呢 ? 假设 替换 故障 磁盘 的 过 程 花费 3 小 时 ， 这 是 
一 天 的 1/8， 或 者 一 年 的 1/2920。 由 于 假定 每 个 盘 的 平均 故障 时 间 是 10 年 ， 找 贝 过 程 中 发 生 故 障 
的 可 能 性 是 (1/10) x (1/2920)， 即 1/29 200。 如 果 一 个 磁盘 每 10 年 发 生 一 次 故 摩 ， 那 么 两 个 磁盘 
之 一 平均 5 年 发 生 一 次 故障 。 每 29 200 个 这 种 故障 中 有 一 个 导致 数据 丢失 。 换 句 话 说， 导致 数 
据 丢 失 的 平均 时 间 是 5 x 29 200 = 146 000 年 。 口 


11.7.3 WARR 

尽管 镜像 磁盘 是 减少 磁盘 崩 省 造成 数据 丢失 的 可 能 性 的 一 种 有 效 方法 ， 但 它 所 使 用 的 元 余 
盘 与 它 所 拥有 的 数据 盘 一 样 多 。 另 有 一 种 被 称 为 RAID 4 级 的 方法 ， 不 管 有 多 少 个 数据 盘 ， 仅 
使 用 一 个 元 余 盘 。 假 设 磁盘 相同 ， 所 以 可 以 给 每 一 个 磁盘 编号 ， 从 1 到 数字 m。 当 然 ， 所 有 磁盘 
上 的 所 有 块 都 有 着 相同 的 二 进 制 位 数 。 例 如 ， 在 举例 的 Megatron 747 磁 盘 中 有 16 384 字 节 块 ， 


生存 的 比率 
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8x 16 384 = 131 07242. ARRAS, Bi 块 由 所 有 数据 盘 的 第 i 块 奇偶 校 验 位 组 成 。 也 就 是 
说 ， 所 有 第 i 块 的 第 j 位 ， 包 括 数据 盘 和 宛 余 盘 ， 在 它们 中 间 必 须 有 偶数 个 1， 于 是 总 是 选取 元 
余 盘 的 位 使 这 个 条 件 为 真 。 


从 例 11.17 已 知 如 何 使 得 条 件 为 真 。 如 果 有 奇数 个 数据 盘 的 第 j 位 为 1 ， 在 元 余 盘 中 ,选取 . 


位 j 为 1。 如 果 在 数据 副 中 的 第 j 位 有 偶数 个 1， 就 选取 见 余 盘 的 位 j 为 0。 关 于 这 个 计算 的 术语 
是 模 2 和 ( modulo-2 sum )。 也 就 是 说 ， 如 果 在 车 干 个 位 当中 有 偶数 个 1， 则 这 些 位 的 模 2 和 为 0。 
如 果 有 奇数 个 1， 则 模 2 和 为 1。 

例 11.19 ” 举 一 个 极 简单 的 例子 ,假定 块 仅 由 一 个 字 节 一 -8 位 组 成 。 令 有 三 个 数据 盘 ， 分 
别称 为 盘 1、 盘 2 和 盘 3， 还 有 一 个 元 余 盘 ， 称 为 盘 4。 集 中 考虑 所 有 这 些 盘 的 第 一 块 。 如 果 在 数 
据 盘 的 第 一 块 中 ， 有 如 下 位 序列 : 

盘 1: 11110000 
盘 2; 10101010 
#3: 00111000 


那么 元 余 盘 的 第 一 块 将 有 奇偶 校 验 位 : 
#4; 01100010 


注意 : 四 个 8 位 序列 中 的 每 一 个 位 置 上 是 如 何 分 布 着 偶数 个 1 的 。 在 位 置 1、2、4、5 和 7 有 
两 个 1， 在 位 置 3 有 四 个 1， 而 在 位 置 6 和 8 有 和 零 个 1。 - 口 
读 操作 

从 一 个 数据 盘 读 块 与 从 任何 一 个 磁盘 读 块 没 有 什么 差别 。 虽 然 能 够 从 元 余 盘 读 ， 但 通常 没 
有 任何 理由 这 样 做 。 在 某 些 情况 下 ,实际 上 能 够 获得 来 自 一 个 数据 盘 的 两 个 同步 读 操 作 的 效果 ， 
下 面 的 例子 解释 了 这 种 情况 ， 尽 管 使 用 它 的 条 件 很 罕见 。 

例 11.20 ”假设 正在 读 第 一 个 数据 盘 的 一 个 块 ， 另 一 个 请 求 进入 要 读 同 一 磁盘 的 一 个 不 同 
的 块 ， 比 如 说 块 1。 通 常 ， 必 须 等 待 第 一 个 请 求 完 成 。 然 而 ， 如 果 其 余 的 磁盘 都 不 忙 的 ， 就 能 
读 这 些 磁盘 的 块 1， 并 且 通 过 取 模 2 和 计算 出 第 一 磁盘 的 块 1。 

具体 来 说 ， 如 果 磁 盘 及 其 第 一 个 块 数据 如 例 11.19 所 示 ， 那 么 就 能 读 第 二 、 第 三 数据 盘 和 
TRE, HAFIR: 

#2: 10101010 


#3: 00111000 
#4; 01100010 
如 果 取 每 一 列 的 那些 位 的 模 2 和 ， 就 能 得 到 
#1: 11110000 
这 与 第 一 磁盘 的 块 1 相 同 。 口 


写 操作 

写 数据 盘 的 一 个 新 块 时 ， 不 仅 需 要 改变 那个 块 ， 而 且 需 要 改变 宛 余 盘 的 相应 块 ， 以 便 它 能 
继续 保持 是 所 有 数据 盘 相 应 块 的 奇偶 校 验 。 一 个 朴素 的 方法 是 读 取 n 个 数据 盘 的 相应 块 ， 取 它 
们 的 模 2 和 ， 并 重 写 元 余 盘 的 块 。 这 个 方法 要 求 执行 不 被 重 写 的 数据 块 的 -1 次 读 、 重 写 数据 块 
的 一 次 写 以 及 元 余 盘 块 的 一 次 写 。 这 样 总 共有 7 +1 次 磁盘 IO。 

一 种 更 好 的 方法 是 只 关注 正在 被 重 写 的 数据 块 ;的 老 版 本 和 新 版 本 。 如 果 取 它们 的 模 2 和 和 ， 
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就 可 以 知道 ， 所 有 磁盘 上 编号 ;的 块 中 那个 位 置 上 的 1 的 总 数 是 否 有 变化 。 由 于 这 些 变化 总 是 一 
种 方式 ， 将 1 的 个 数 由 任意 一 个 偶数 变 成 了 一 个 奇数 。 这 样 如 果 改 变 宛 余 块 的 相同 位 置 ， 那 么 
每 个 位 置 的 1 的 个 数 重 新 变 为 偶数 。 使 用 4 个 磁盘 UO ， 就 可 以 执行 下 列 计算 : 

1. 读 要 被 改变 的 数据 盘 上 的 旧 值 。 

2. 读 元 余 盘 的 相应 块 。 

3. 写 新 数据 块 。 

4. 重新 计算 并 写 元 余 盘 的 块 。 


模 2 和 代数 
了 解 有 关 位 向 量 的 模 2 和 运算 的 代数 定律 ， 对 于 理解 奇偶 校 验 所 采用 的 一 些 策略 可 能 
很 有 帮助 。 用 符号 四 表示 这 种 操作 。 例 如 ，1100@1010 = 0110。 下 面 是 关于 四 操作 的 一 些 
有 用 的 定律 。 


。 交 换 率 : rOy = yOx 

结合 率 : x@(y@z) = Byez 

。 相应 长 度 的 全 0 向 量 (用 5 表示 ) 是 四 的 恒 等 元 素 ， 即 X 四 0=0@x =x 

“四 是 其 自身 的 递 ; x 电 xz=0。 作 为 一 个 有 用 的 结论 ， 如 果 xBy = z， 则 可 以 在 等 号 
两 边 “ 加 ”x， 得 到 y = x@z 





例 11.21 假设 三 个 数据 盘 的 第 一 块 如 例 11.19 所 示 ， 为 : 
#1: 11110000 
#2: 10101010 
#3: 00111000 


另 假 设 ， 第 二 个 磁盘 上 的 块 由 10101010 变 为 11001100。 如 果 求 盘 ? 上 旧 值 与 新 值 的 模 2 和 ， 
得 到 01100110。 这 个 结果 表明 ， 必 须 改 变 宛 余 盘 第 一 块 位 置 2、3、6 和 7 上 的 值 。 于 是 先 读 该 块 
01100010， 并 用 通过 改变 其 适当 位 置 而 得 到 的 新 块 蔡 换 这 个 块 。 事 实 上 ， 一 般 是 以 宛 余 盘 自 身 
与 01100110 的 模 2 和 替换 元 余 块 ， 得 到 00000100。 表 示 新 完 余 块 的 另 一 个 方法 是 ， 它 是 正在 被 
重 写 的 块 的 旧版 本 与 新 版 本 以 及 元 余 块 旧 值 的 模 2 和 。 在 例 中 ， 四 个 盘 ( 三 个 数据 盘 和 一 个 元 
余 盘 ) 的 第 一 块 ， 在 盘 2 上 写 人 块 和 对 宛 余 块 进行 必 要 的 重新 计算 之 后 已 经 变 为 : 
Æ1: 11110000 
#2: 11001100 
#43; 00111000 
#4: 00000100 
注意 ， 在 上 述 块 中 ,每 一 列 依旧 有 偶数 个 1。 
顺便 指出 ， 像 所 有 采用 前 面 所 描述 方案 的 数据 块 写 一 样 ， 数 据 块 的 这 次 写 要 花 去 4 个 磁盘 
IO。 朴 素 的 方案 一 一 读 除 重 写 块 之 外 的 全 部 块 并 直接 重新 计算 元 余 块 一 一 在 本 例 中 也 要 求 4 个 
VO: 两 个 用 于 从 第 一 和 第 三 数据 盘 读数 据 ， 两 个 用 于 写 第 三 数据 盘 和 宛 余 盘 。 但 是 ， 如 果 有 
三 个 以 上 的 数据 盘 ， 朴 素 方 案 的 IO 数 将 随 数据 盘 的 增加 而 线性 上 升 ， 而 这 里 提倡 的 方案 依旧 
555) “只 需要 4 个 IO 请 求 。 O 


故障 恢复 
现在 考虑 ， 如 果 磁 盘 之 一 崩溃 了 ， 应 该 做 些 什么 。 如 果 故 障 盘 是 元 余 盘 ， 就 换 进 一 个 新 磁 
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盘 ， 并 重新 计算 宛 余 块 。 如 果 故 障 盘 是 数据 盘 之 一 ， 那 么 需要 换 进 一 个 好 盘 ， 并 且 根 据 其 他 盘 
重新 计算 它 的 数据 。 重 新 计算 任何 丢失 数据 的 规则 实际 上 很 简单 ， 并且 不 依赖 于 是 数据 盘 故 障 ， 
还 是 元 余 盘 故障 。 由 于 事先 知道 ， 所 有 磁盘 中 相应 位 的 1 的 个 数 是 偶数 ， 它 遵循 如 下 规则 : 
“任何 位 置 的 位 是 所 有 其 他 磁盘 的 相应 位 置 所 有 位 的 模 2 和 。 
如 果 谁 不 相信 上 述 规则 ， 就 只 需要 考虑 两 种 情况 。 如 果 所 讨论 的 位 是 1， 那 么 相应 位 1 的 个 
数 必 须 是 奇数 ， 所 以 它们 的 模 2 和 是 1。 如 果 所 讨论 的 位 是 0， 那 么 相应 位 中 有 偶数 个 1， 并 且 它 
们 的 模 2 和 是 0。 

例 11.22 ”假设 盘 2 发 生 故 障 。 需 要 重新 计算 替换 盘 的 各 个 块 。 依 照例 11.19， 看 看 如 何 重新 
计算 第 二 盘 的 第 一 个 块 。 已 经 给 出 第 一 和 第 三 数据 盘 以 及 元 余 盘 的 相应 块 ， 所 以 总 的 情况 如 下 : 
#£1: 11110000 
#43; 00111000 
#4: 01100010 


如 果 取 每 一 列 的 模 2 和 ， 可 以 推导 出 ， 丢 失 的 块 是 10101010， 正 是 例 11.19 一 开始 的 情况 。 口 


11.7.4 一 种 改进 : RAID 5 

除非 两 个 磁盘 几乎 同时 发 生出 演 ，11.7.3 节 描述 的 RAID 4 级 方法 就 能 有 效 地 保护 数据 。 但 
是 ， 重 新 分 析 写 一 个 新 数据 块 的 过 程 ， 就 可 以 看 到 它 存 在 一 个 瓶颈 。 无 论 采 用 什么 更 新 硬盘 的 
方案 ， 都 需要 读 和 写 元 余 盘 的 块 。 如 果 有 m 个 数据 盘 ， 那 么 元 余 盘 的 写 次 数 ， 将 是 任何 一 个 数 
据 盘 平均 写 次 数 的 n 信 。 

然而 ， 正 如 在 例 11.22 中 所 看 到 的 ， 对 数据 盘 和 宛 余 盘 的 恢复 规则 相同 ， 取 其 他 磁盘 相应 
位 的 模 2 和 。 这 样 ， 就 不 必 把 一 个 盘 作 为 元 余 盘 ， 和 而 把 其 他 盘 作 为 数据 盘 。 相 反 ， 可 以 把 每 个 
磁盘 都 作为 某 些 块 的 元 余 盘 来 处 理 。 这 种 改进 通常 称 为 RAID 5 级 。 

例如 ， 如 果 有 n + 1 个 编号 为 0 ~ "的 磁盘 ,并 且 j 是 当 i Bin + 1 除 时 的 余数 。 则 可 以 把 盘 j 
的 第 i 个 柱 面 看 做 元 余 。 

例 11.23 ”在 使 用 的 例子 中 ，n = 3， 就 是 有 4 个 磁盘 ， 第 一 个 盘 的 编号 为 0， 将 作为 编号 4、 
8、12 等 柱 面 的 宛 余 ， 因 为 当 被 4 除 时 ， 这 些 柱 面 编号 的 余数 是 0。 编 号 为 1 的 盘 将 作为 编号 1、5、 
9 等 块 的 元 余 ， 盘 2 是 编号 2、6、10 等 块 的 元 余 ， 而 盘 3 是 编号 3、7、11 等 块 的 宛 余 。 

结果 ， 每 个 盘 的 读 负载 和 写 负 载 相 同 。 如 果 所 有 的 块 有 同样 的 被 写 可 能 性 ， 那 么 对 于 每 次 
写 ， 每 个 盘 有 要 写 的 块 的 几率 是 1/4。 如 果 不 是 这 样 ， 那 么 它 有 1/3 的 机 会 作 那 个 抉 的 完 余 盘 。 
这 样 ，4 个 盘 中 的 每 一 个 被 写 的 几率 是 1/4+3/4 x 1/3=1/2。 口 


11.7.5 多 个 盘 贿 溃 时 的 处 理 

如 果 使 用 足够 多 的 元 余 盘 , 运用 纠 错 码 原 理 可 以 处 理 多 个 磁盘 (无论 是 数据 盘 还 是 完 余 盘 ) 
崩溃 。 这 个 策略 引出 最 高 的 RAID“ 级 ”一 -一 RAID 6 级 。 这 里 仅 给 出 一 个 简单 的 例子 ， 例 子 中 
可 纠正 两 个 同时 发 生 的 崩溃 。 该 策略 是 基于 最 简单 的 纠 错 码 一 一 海 明 码 (Hamming code )。 

在 本 文 的 描述 中 ， 关 注 带 有 7 个 磁盘 的 系统 ， 磁 盘 编号 是 1 ~ 7。 前 4 个 盘 是 数据 盘 ， 盘 5 ~ 盘 
7 是 元 余 盘 。 数 据 盘 和 宛 余 盘 之 间 的 关系 被 概括 为 0 和 1 组 成 的 3 x 7 矩阵 ， 如 图 11-17 所 示 。 注 意 ; 

a) 除了 全 0 列 之 外 ，0、1 组 成 所 有 可 能 三 位 数列 ， 都 出 现在 图 11-17 的 矩阵 中 。 

b) 元 余 盘 对 应 的 列 只 有 一 个 1。 

c) 数据 盘 对 应 各 列 至 少 各 有 两 个 1。 
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如 果 观 察 来 自 全 部 7 个 盘 的 相应 的 位 ， 并 且 把 注意 力 集中 在 该 行 有 1 的 那些 磁盘 上 ， 那 么 由 
0 和 1 组 成 的 三 行 的 每 一 行 的 含义 是 这 些 位 的 模 2 和 必须 是 0。 换 言 之 ， 和 矩阵 中 给 定 行 内 带 有 1 的 
磁盘 ， 可 以 看 做 是 RAID 4 级 方案 中 的 整个 磁盘 组 合 。 这 样 ， 通 过 找 出 该 磁盘 有 1 的 那 一 行 ， 并 
且 取 同一 行 有 1 的 其 他 磁盘 的 相应 位 的 模 2 和 ， 就 能 计算 出 宛 余 盘 之 一 的 相应 位 。 

对 于 图 11-17 的 矩阵 ， 这 个 规则 意味 着 : 

1. 盘 5 的 位 是 盘 1、2 和 3 相应 位 的 模 2 和 。 

2. 盘 6 的 位 是 盘 1、2 和 4 相应 位 的 模 2 和 。 

3. 盘 7 的 位 是 盘 1、3 和 4 相应 位 的 模 2 和 。 

从 上 例 可 以 很 快 看 出 ， 矩阵 中 位 的 特定 选择 有 一 个 简单 的 规则 ， 通 过 该 规则 ， 人 们 能 够 将 
丙 个 同时 发 生 惰 省 的 磁盘 恢复 。 
读 操 作 

可 以 从 任何 一 个 数据 盘 中 正常 地 读数 据 。 可 以 忽略 元 余 盘 。 
写 操作 

写 操作 的 想法 类 似 于 11.7.4 节 中 概括 描述 的 写 策略 ， 但 是 现在 可 能 要 涉及 几 个 宛 余 盘 。 为 
了 写 某 个 数据 盘 的 一 个 块 ,需要 计算 那个 块 的 新 版 与 旧版 的 模 2 和 。 mA 内 容 
这 些 位 以 模 2 和 的 方式 加 入 到 所 有 元 余 盘 的 相应 块 中 ， 条 件 是 这 些 11110000 













宛 余 盘 在 该 数据 所 写 盘 中 为 1 的 某 一 行 中 同样 为 1。 2) | 10101010 
例 11.24 ”再 一 次 假设 块 只 有 8 位 长 ， 并 且 关 注 在 RAID 6 级 举 a | 01000001 
例 中 用 到 的 7 个 磁盘 的 第 一 块 。 首 先 ， 假 设 数据 盘 和 克 余 盘 的 第 一 5) | 01100010 






00011011 
10001001 


块 内 容 如 图 11-18 所 示 。 注 意 ， 盘 5 的 块 是 前 3 个 盘 的 块 的 模 2 和 ， 7) 
第 6 行 是 行 1、2 和 4 的 模 2 和 ， 而 最 后 一 行 是 行 1、3 和 4 的 模 2 和 。 

假设 要 将 盘 2 的 第 一 块 重 写 为 00001111。 如 果 计 算 这 个 序列 与 
序列 10101010 ( 该 块 的 旧 值 ) 的 模 2 和 ， 则 得 到 10100101。 如 果 磁 盘 | 内 容 
观察 图 11-17 中 盘 2 的 列 ， 就 会 发 现 ， 该 盘 前 两 行 中 有 1， 但 是 第 三 aooo 
行 没 有 。 由 于 宛 余 盘 5 和 盘 6 分 别 在 行 1 和 行 2 有 1， 因 此 必须 分 别 00111000 
对 它们 第 一 块 的 当前 内 容 和 刚刚 算出 的 序列 10100101 执 行 求 模 2 






01000001 
11000111 


和 操作 。 也 就 是 说 ， 对 这 两 个 块 在 位 置 1、3、6 和 8 上 的 值 求 反 。 6) | 10111110 

所 有 磁盘 的 第 一 块 的 结果 内 容 如 图 11-19 所 示 。 注 意 ， 新 内 容 依旧 7) | 10001001 
满足 图 11-17 所 包含 的 约束 : 图 11-17 和 矩阵 中 有 1 的 特定 行 的 相应 块 ”图 11.19 在 重 写 盘 ?并 改变 宛 
的 模 2 和 依然 是 全 0。 E 余 盘 之 后 所 有 盘 的 第 一 块 
故障 恢复 


现在 来 看 看 前 面 概述 的 宛 余 方案 如 何 能 够 用 于 纠正 两 个 同时 发 生 的 磁盘 崩溃 。 令 故 障 盘 为 
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a 和 b。 由 于 图 11-17 和 矩阵 的 所 有 列 都 不 同 ， 所 以 必定 能 够 找到 某 行 "-， 在 r 中 a 和 5 对 应 的 值 不 同 。 
假设 在 行 "，a 有 0， 而 b 有 1。 - 

然后 ， 通 过 来 自 除 2 之 外 的 所 有 在 行 z 有 1 的 磁盘 的 相应 位 的 模 2 和 ， 就 能 够 计算 出 正确 的 b。 
注意 ;ea 不 在 其 中 ， 所 以 它们 都 没有 发 生 故障 。 这 样 做 完 后 ， 必 须 用 所 有 其 他 可 用 盘 来 重新 计 
算 a。 由 于 图 11-17 和 矩阵 的 每 一 列 都 会 在 某 -一 行 里 有 一 个 1， 因 此 能 够 使 用 这 一 行 去 重新 计算 磁 
盘 z， 办 法 是 取 该 行 中 有 1 的 其 他 磁盘 的 位 的 模 2 和 。 

例 11.25 ”假设 盘 2 和 盘 5 儿 乎 在 同一 时 刻 发 生 故 障 。 参 照 图 11-17 的 矩阵 ， 可 以 发 现 ， 这 两 
个 盘 的 列 在 行 2 不 同 ， 盘 2 有 1 而 盘 5 有 0。 这 样 ， 通 过 取 盘 1、4 和 6 ( 行 2 带 1 的 其 他 三 个 盘 ) 的 相 
应 位 的 模 2 和 ， 可 以 按 原样 修复 盘 2。 注 意 ， 这 三 个 盘 都 没有 发 生 故 障 。 例 如 ， 根 据 与 图 11-19 
中 第 一 块 有 关 的 情况 可 以 得 出 ， 在 盘 2 和 盘 5 出 现 故 障 后 ， 最 初 有 图 11-20 所 示 的 可 用 数据 。 

如 果 取 盘 1、4 和 6 块 内 容 的 模 2 和 ， 可 以 发 现 ， 盘 2 的 块 为 00001111。 从 图 11-19 可 以 验证 这 
个 块 的 正确 性 。 结 果 如 图 11-21 所 示 。 l 
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图 11-20 盘 2 和 盘 S 发 生 故 障 后 的 状况 图 11-21 AAKE ZJARRI. 
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现在 ， 可 以 看 到 ， 图 11-17 中 盘 5 的 列 在 第 一 行 有 一 个 1。 因 此 通过 取 与 盘 1、2 和 3 ( 在 第 一 
行 有 1 的 其 他 三 个 盘 ) 的 相应 位 的 模 2 和 ， 可 以 重新 计算 盘 5。 对 于 块 1， 这 个 和 是 11000111。 和 而 
且 这 个 计算 的 正确 性 可 通过 图 11-19 确 认 。 | 口 









关于 RAID 6 级 的 附加 评述 

1. 通过 根据 块 号 或 柱 面 号 变换 宛 余 盘 的 方式 ， 可 以 将 RAID 5 级 和 6 级 的 思想 结合 起 
来 。 这 样 做 将 避免 写 操作 时 的 瓶 允 。 在 11.7.5 节 给 出 的 方案 将 在 宛 余 盘 产生 瓶颈 。 

.在 11.7.5 节 的 方案 不 只 限于 4 个 数据 盘 。 磁盘 的 数量 可 以 是 2 的 任意 次 方 碱 1， 即 24- 1。 
在 这 些 盘 中 ， 有 上 个 是 元 余 盘 ,而 剩余 的 2: 一 kk 一 1 个 是 数据 盘 ， 所 以 宛 余 盘 差 不 多 是 按 
数据 盘 数 目的 对 数 增长 。 对 于 任意 上 K， 通 过 写 K 个 0 和 1 构成 的 所 有 可 能 的 列 〔 全 0 列 除外 )， 
可 以 构造 出 与 图 11-7 相 对 应 的 延 阵 。 有 单个 1 的 列 是 宛 余 盘 ， 而 有 多 个 1 的 列 是 数据 盘 。 


11.7.6 习题 | 
习题 11.7.1 ”假设 使 用 例 11.18 中 的 镜像 盘 ， 每 年 故障 率 为 4% ， 更 换 一 个 盘 要 花 8 小 时 。 导 
致 数据 丢失 的 磁盘 平均 故障 时 间 是 多 少 ? 
= 习题 11.7.2 假设 磁盘 每 年 的 故障 百分率 为 F， 更 换 一 个 盘 要 花费 小 时 。 
a) 如 果 使 用 镜像 盘 ， 作 为 F 和 HH 的 函数 ， 数 据 丢 失 的 平均 时 间 是 多 少 ? 
b) 如 果 采 用 RAID 4 级 和 5 级 方案 ,使 用 N 个 磁盘 ， 数 据 丢 失 的 平均 时 间 是 多 少 ? 
!! 习题 11.7.3 假设 使 用 3 个 磁盘 作为 一 个 镜像 组 ， 即 所 有 3 个 盘 保 存 相同 的 数据 。 如 果 一 个 
磁盘 每 年 的 故障 率 是 F， 恢 复 一 个 磁盘 要 花费 小时， 数据 丢失 的 平均 时 间 是 多 少 ? 
习题 11.7.4 ”假设 使 用 RAID 4 级 方案 ， 有 4 个 数据 盘 和 一 个 元 余 盘 。 与 例 11.19 一 样 ， 假 设 
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块 为 单字 节 。 如 果 数 据 盘 的 相应 块 如 下 ， 给 出 元 余 盘 的 块 。 
* a) 01010110，11000000，00111011 和 11111011。 
b) 11110000，11111000，00111111 和 00000001。 
习题 11.7.5 ”采用 与 习题 11.7.4 相 同 的 RAID 4 级 方案 ,假设 数据 盘 1 有 故障 。 请 在 下 列 情况 
下 恢复 该 磁盘 的 块 : 
* a) $2 ~ 4H A FAO01010110. 11000000f100111011, MAH TAANAAB 
11111011, 
b) #2 ~ M4NAAA11110000, 11111000M00111111, ANTAARHAAE 
00000001 , . 









纠 错 码 和 RAID 6 级 

存在 一 个 指导 选择 如 图 11-17 那 样 的 合适 矩阵 的 原理 ， 以 确定 元 余 盘 的 内 容 。 一 
个 长 度 为 4 的 代码 是 一 组 长 度 为 n 的 位 向 量 ( 称 为 码 字 )。 两 个 码 字 之 间 的 海 明 距 离 是 
这 两 个 码 字 取 值 不 同 的 位 置 的 数量 ， 而 一 个 代码 的 最 小 距离 是 任何 两 个 不 同 码 字 的 最 
小 海 明 距 离 。 

如 果 C 是 长 度 为 n 的 任意 代码 ， 可 以 要 求 n 个 磁盘 的 相应 位 是 这 样 的 一 个 序列 ， 
它 是 代码 C 的 成 员 。 举 一 个 很 简单 的 例子 ， 如 果 正 在 使 用 一 个 磁盘 和 它 的 镜像 ， 那 么 
nn = 2， 就 可 以 使 用 代码 C = {00,11}。 也 就 是 说 ， 两 个 磁盘 的 相应 位 必须 相同 。 对 于 
另 一 个 例子 ， 图 11-17 的 矩阵 定义 了 长 度 为 7 的 16 个 位 向 量 组 成 的 代码 ， 前 4 位 有 任意 
的 值 ， 剩 余 的 3 位 由 3 个 完 余 盘 规 则 决定 。 

如 果 代 码 的 最 小 距离 是 4， 则 要 求 相应 位 是 代码 中 的 一 个 向 量 的 磁盘 ， 将 能 够 承 
受 d 一 1 个 磁盘 同时 发 生 崩 演 。 理 由 是 ,假如 使 一 个 码 字 的 d -1 个 位 置 模 糊 不 清 ， 并 
且 有 两 种 不 同 的 方法 填写 这 些 位 置 ， 以 形成 两 个 码 字 ， 那么 这 两 个 码 字 最 多 在 这 d -1 
个 位 置 不 同 。 这 样 ， 代 码 就 不 会 有 最 小 距离 4。 作 为 示例 ， 图 11-17 短 阵 实 际 上 定义 了 
著名 的 海 明 码 ， 它 的 最 小 距离 是 3。 这 样 ， 它 能 处 理 两 个 磁盘 损坏 。 


习题 11.7.6 ”假设 习题 11.7.4 第 一 个 盘 中 的 块 被 改 为 10101010。 问 其 他 盘 上 相应 的 块 必须 
做 什么 样 的 改变 ? 
习题 11.7.7 ”如果 使 用 例 11.24 的 RAID 6 级 方案 ，4 个 数据 盘 的 块 分 别 为 00111100、 
11000111 、01010101 和 10000100。 

a) 元 余 盘 的 相应 块 是 什么 ? 

b) 如 果 第 三 个 盘 的 块 被 重 写成 10000000， 必 须 采 取 哪 些 步 台 以 改变 其 他 盘 ? 
习题 11.7.8 使 用 带 有 7 个 磁盘 的 RAID 6 级 方案 ,描述 从 下 列 故障 中 恢复 所 要 采取 的 步骤 : 

* a) RIMET 

b) SIMA. 

c) 盘 3 和 盘 6。 
习题 11.7.9 ” 找 出 使 用 15 个 磁盘 ( 其 中 4 个 盘 是 宛 余 盘 ) 的 RAID 6 级 方案 。 提 示 : 广义 化 7 
个 磁盘 的 海 明 和 矩阵 。 
习题 11.7.10 ” 列 出 长 度 为 7 的 海 明 码 的 16 个 码 字 。 也 就 是 说 ， 对 于 基于 图 11-7 和 矩阵 的 拥有 ?7 
个 磁盘 的 RAID 6 级 方案 ， 能 够 同 它 的 相应 位 对 应 的 16 个 位 表 是 什么 ? 
习题 11.7.11 ”假设 有 4 个 磁盘 ， 其 中 盘 1 和 盘 2 是 数据 盘 ， 盘 3 和 盘 4 是 宛 祭 盘 。 盘 3 是 盘 1 的 
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镜像 。 盘 4 保存 着 盘 2 和 盘 3 相应 位 的 奇偶 校 验 位 。 
a) 通过 给 出 类 似 于 图 11-17 的 奇偶 校 验 和 矩阵 ， 表 达 上 述 情况 。 
!! b) 在 某 些 情况 〈 但 不 是 所 有 情况 ) 下 ， 能 够 在 两 个 磁盘 同时 发 生 故 障 时 恢复 数据 。 请 
确定 ， 哪 一 对 盘 可 能 恢复 ， 哪 一 对 盘 不 可 能 恢复 。 


*! 习题 11.7.12 假设 有 8 个 数据 盘 ， 编 号 为 1 ~ 8。 有 3 个 宛 余 盘 ， 编 号 为 9、10 和 11。 盘 9 是 关 


于 盘 1 ~ 盘 4 的 奇偶 校 验 盘 ， 盘 10 是 关于 盘 5 ~ 盘 8 的 奇偶 校 验 盘 。 如 果 所 有 磁盘 同时 发 生 故 
障 的 可 能 性 相同 ， 现 在 希望 从 两 个 磁盘 同时 发 生 故 障 中 恢复 的 概率 达到 最 大 ， 那 么 盘 11 应 
GROVER BRA? 


!! 习题 11.7.13 找 出 一 个 具有 10 个 磁盘 的 RAID 6 级 方案 ， 要 求 能 从 任何 三 个 磁盘 的 同时 故 


障 中 人 恢复。 你 应 该 使 用 尽 可 能 多 的 数据 盘 。 


11.8 小 结 


“存储 器 层次 : 一 个 计算 机 系统 使 用 多 种 存储 部 件 ， 这 些 存 储 部 件 在 速度 、 容 量 和 每 个 二 
进 制 位 的 费用 方面 的 范围 涉及 多 个 数量 级 。 从 最 小 /最 贵 到 最 大 /最 便宜 ， 它 们 分 别 是 : 高 
速 缓存 、 主 存储 器 、 二 级 存储 器 ( 磁盘 ) 和 三 级 存储 器 。 

“三 级 存储 器 : 三 级 存储 器 的 基本 设备 是 盒 式 磁带 、 磁 带 仓 ( 管理 磁带 盒 的 机 械 设备 ) 和 
自动 光盘 机 (管理 CD - ROM 盘 的 机 械 设 备 )。 这 些 存储 设备 可 容纳 许多 个 太 字 节 ， 但 是 
均 属 于 最 慢 的 可 用 存储 设备 。 

。 磁 盘 /二 级 存储 器 : 二 级 存储 器 设备 主要 是 具有 多 个 吉 字 节 容 量 的 磁盘 。 磁 盘 设 备 有 若干 
个 磁性 材料 的 圆 盘 ， 圆 盘 上 有 存储 二 进 制 位 的 同心 圆 磁道 。 圆 盘 围 绕 着 中 心 轴 旋转 。 距 
离 圆 盘 中 心 的 给 定 半径 上 的 所 有 磁道 形成 一 个 柱 面 。 

“Re RR: 磁道 被 分 成 扇 区 ， 扇 区 被 非 磁化 间隙 分 隔 。 扇 区 是 读 盘 和 写 盘 的 基本 单位 。 
块 是 DBMS 这 样 的 应 用 进行 存储 的 逻辑 单位 。 块 通常 由 若干 个 遍 区 组 成 。 

“磁盘 控制 器 : 磁盘 控制 器 是 控制 一 个 或 多 个 磁盘 装置 的 处 理 器 。 它 负责 将 磁头 移动 到 合 
适 的 柱 面 ， 以 便 读 写 一 个 所 要 求 的 磁道 。 它 还 可 以 调度 对 磁盘 访问 的 竞争 请 求 ， 并 且 组 
冲 要 读 或 要 写 的 块 。 

© 磁盘 访问 时 间 : 磁盘 延迟 是 指 从 发 出 一 个 读 块 或 写 块 请 求 到 该 访问 完成 的 时 间 。 延 迟 大 
体 上 由 三 个 因素 引起 : 移动 磁头 到 合适 柱 面 的 寻 道 时 间 ， 所 要 求 的 块 转 到 磁头 下 的 旋转 
延迟 以 及 传输 时 间 ， 即 块 在 磁头 下 面 移动 进行 读 或 写 的 时 间 。 

(FRA: 从 计算 机 处 理 器 速度 以 及 磁盘 和 主 存储 器 容量 等 参数 每 18 个 月 翻 一 番 得 出 的 
恒定 发 展 趋势 。 但 是 在 同一 个 时 期 内 ， 磁 盘 访问 时 间 只 减少 一 点 点 。 一 个 重要 的 结论 是 ， 
磁盘 访问 的 〈 相对 而 言 ) 费用 在 逐年 增长 。 

“使 用 二 级 存储 器 的 算法 : 当 数 据 量 大 到 主 存 装 不 下 的 时 候 ， 用 于 操纵 数据 的 算法 必须 考 
虑 到 这 样 的 事实 : 在 磁盘 与 存储 器 之 间 读 写 磁盘 块 所 花费 的 时 间 通 常 要 比 在 内 存 中 处 理 
数据 的 时 间 长 得 多 。 因 此 ， 对 二 级 存储 器 中 数据 的 算法 的 评价 集中 在 磁盘 IO 的 请 求 数 上 。 
"两 趟 、 多 路 归并 排序 法 : 这 个 排序 算法 仅仅 用 到 各 个 数据 的 两 次 磁盘 读 和 两 次 磁盘 写 ， 
就 能 对 磁盘 上 的 极 大 量 的 数据 进行 排序 。 它 是 被 大 多 数 数据 库 应 用 所 选择 的 排序 方法 。 
* 磁 盘 访问 的 加 速 ; 对 于 某 些 应 用 来 说 ， 有 多 种 技术 可 以 较 快 地 访问 磁盘 块 。 这 些 技术 包 
括 : 将 数据 分 布 到 若干 个 磁盘 当中 ( 以 允许 并 行 访问 )， 镜 像 磁盘 ( 保存 数据 的 多 个 拷贝 ， 
也 是 允许 并 行 访问 )， 组 织 数据 使 数据 以 多 个 磁道 或 柱 面 为 一 个 整体 的 方式 被 访问 ， 以 及 
通过 同时 读 或 写 整个 磁道 或 柱 面 来 预 取 或 双 缓冲 数据 。 . 
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“电梯 算法 : 通过 按 一 定 顺序 处 理 访问 请 求 排队 来 提高 访问 速度 ， 这 种 顺序 将 使 得 磁头 能 
够 作 一 次 跨越 整个 磁盘 的 扫描 。 每 当 磁 头 到 达 的 柱 面包 含 等 待 中 的 访问 请 求 所 需要 的 一 
个 或 多 个 块 时 ， 磁 头 就 停 下 来 处 理 请 求 。 

“磁盘 故障 类 型 : 为 了 避免 数据 丢失 ， 系 统 必 须 能 处 理 错误 。 磁 盘 故 障 的 基本 类 型 包括 : 
间断 性 故障 (如果 重 复 多 次 ， 读 或 写 错 误 将 不 会 再 发 生 )、 永 久 性 故障 ( 磁盘 上 的 数据 已 
损坏 ， 并 且 不 能 被 正确 读 出 ) 以 及 磁盘 崩溃 〈 此 时 整个 磁盘 成 为 不 可 读 )。 

“ 校 验 和 : 通过 增加 奇偶 校 验 ( 外 加 的 二 进 制 位 ， 使 得 一 个 位 串 中 1 的 个 数 为 偶数 )。 借 助 
校 验 和 ， 间 断 性 故障 和 永久 性 故障 可 以 被 检测 出 来 ， 尽 管 不 能 纠正 这 些 故障 。 

“稳定 存储 : 通过 制作 所 有 数据 的 两 个 拷贝 ， 并 且 注 意 写 那些 拷贝 的 顺序 ， 单 个 磁盘 可 以 
用 于 防止 单个 肩 区 的 几乎 所 有 的 永久 性 故障 。 

* RAID: 通过 使 用 一 个 或 几 个 额外 的 磁盘 ， 可 以 有 若干 个 方案 使 数据 幸免 于 磁盘 崩溃 。 
RAID1 级 是 磁盘 镜像 。4 级 需 另 加 一 个 磁盘 ， 其 内 容 是 所 有 其 他 磁盘 的 相应 位 上 的 奇偶 校 
验 。5 级 用 不 同 的 磁盘 保存 奇偶 位 ， 以 避免 单个 奇偶 盘 成 为 写 操作 的 瓶颈 。6 级 涉及 纠 错 
码 的 使 用 ， 可 以 使 数据 幸免 于 多 个 磁盘 的 同时 崩溃 。 
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第 12 章 ”数据 元 素 的 表示 


本 章 将 我 们 在 11.4 节 所 讲 的 第 二 级 存储 器 的 块 模型 与 数据 库 管理 系统 的 要 求 联系 起 来 。. 首 
K, 我 们 看 一 下 关系 或 对 象 集 在 第 二 级 存储 器 中 的 表示 方法 。 

。 属 性 需要 用 定 长 或 变 长 的 字 节 序列 表示 ， 称 做 “字段 ”。 

“ 而后， 字段 被 组 装 成 定 长 或 变 长 的 集合 ， 称 为 “记录 ”， 记 录 对 应 于 元 组 或 对 象 。 

“记录 需要 存储 在 物理 块 中 。 多 种 不 同 的 数据 结构 是 有 用 的 ， 特 别 是 当 修改 数据 库 需要 重 

新 组 织 记 录 块 时 。 

* 构 成 一 个 关系 或 类 外 延 的 记录 和 集 存储 为 块 的 集合 ， 称 为 文件 *， 为 支持 对 这 些 集 合 的 有 

效 查询 和 修改 ， 我 们 在 文件 上 添加 许多 索引 结构 中 的 一 种 ; 这 些 结构 是 第 13 章 和 第 14 章 

讨论 的 内 容 。 


12.1 数据 元 素 和 字段 


我 们 首先 研究 最 基本 的 数据 元 素 的 表示 ， 即 关系 或 面向 对 象 数 据 库 系统 中 的 属性 值 的 表 
示 。 这 是 用 “字段 ”来 表示 的 。 然 后 我 们 考察 字段 如 何 组 装 成 存储 系统 中 更 大 的 元 素 : 记录 、 
块 和 文件 。 
12.1.1 关系 数据 库 元 素 的 表示 

假设 我 们 用 图 12-1 所 示 的 CREATE TABLE 语句 在 SQL 系统 中 声明 一 个 关系 。DBMS 负 责 
表示 和 存储 由 这 个 定义 描述 的 关系 。 既 然 关 系 是 元 组 集合 ， 元 组 与 记录 或 “结构 ”( C 或 C++ 
术语 ) 相似 ,我 们 可 以 设想 每 一 个 元 组 在 磁盘 中 作为 一 条 记录 来 存储 。 记 录 会 占据 某 个 磁盘 
块 (或 其 一 部 分 )， 在 记录 内 部 ， 对 应 于 关系 的 每 一 个 属性 有 一 个 字段 。 


CREATE TABLE MovieStar( 
name CHAR(30) PRIMARY KEY, 
address VARCHAR(255) , 


gender CHAR(1), 
birthdate DATE 





12-1 一 个 SQL 表 的 声明 


尽管 总 的 想法 看 起 来 简单 ， 但 “可 怕 的 是 实现 细节 ”， 我 们 必须 讨论 很 多 问题 : 
1. 如 何 将 SQL 数据 类 型 表示 成 字段 ? 

2. 如 何 将 元 组 表示 成 记录 ? 

3. 如 何在 存储 块 中 表示 记录 或 元 组 的 集合 ? 

4. 如 何 用 块 的 集合 表示 和 存储 关系 ? 


日 数据 库 中 “文件 ”的 概念 比 操作 系统 中 “文件 ”的 含义 更 广泛 一 些 。 数 据 库 文件 可 以 是 一 个 无 结构 的 字 节 流 ， 
但 更 经 常 的 情况 是 由 块 的 一 个 集合 构成 。 这 些 块 按 某 种 有 用 的 方式 组 织 在 一 起 ， 具有 索引 或 其 他 专门 的 访问 
方式 。 我 们 在 第 13 章 讨论 这 些 结构 。 
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5. 如 果 不 同 的 元 组 可 能 具有 不 同 的 记录 大 小 ， 或 者 记录 大 小 不 能 整除 块 大 小 ， 或 二 者 兼 
而 有 之 ， 这 时 我 们 如 何 处 理 记 录 大 小 ? 
6. 如 果 因 为 修改 一 些 字段 而 导致 记录 大 小 发 生 改 变 ， 那 么 将 会 发 生 什么 情况 ?我 们 如 何 
在 记录 所 在 的 块 内 找到 存储 空间 ， 特 别 是 当 记录 增 大 时 ? 
第 一 个 问题 是 本 节 要 讨论 的 ， 下 边 两 个 问题 在 12.2 节 讨论 。 我 们 将 分 别 在 12.4 节 和 12.5 节 
讨论 最 后 两 个 问题 。 第 四 个 问题 ， 即 如 何 表示 关系 以 有 效 存 取 其 元 组 ， 将 在 第 13 章 中 研究 。 
此 外 ， 我 们 需要 考虑 如 何 表 示 现 代 对 象 关系 或 面向 对 象 系统 中 存在 的 某 些 数 据 类 型 ， 如 
对 象 标识 ( 或 其 他 指向 记录 的 指针 ) 和 “blobs”( 二 进 制 的 大 对 象 ， 如 2 GB 的 MPEG 视 频 )。 
这 些 问 题 将 在 12.3 节 和 12.4 节 讨论 。 
12.1.2 对 象 的 表示 
大 致 上 讲 ， 一 个 对 象 就 是 一 个 元 组 ,而 它 的 字段 或 “实例 变量 ”就 是 属性 。 对 象 - 关系 
系统 中 的 元 组 与 普通 关系 系统 中 的 类 似 。 尽 管 如 此 ， 除 在 12.1.1 中 讨论 的 情况 外 ， 还 有 两 种 重 
要 的 拓展 : 
1. 对 象 可 以 有 与 其 相关 的 方法 或 专用 的 函数 ， 这 些 函 数 代码 是 对 象 类 模式 的 一 部 分 。 
2. 对 象 可 以 有 对 象 标 识 ( OID )， 它 在 某 个 全 局 地 址 空间 中 惟一 地 指 代 该 对 象 的 地 址 。 另 
外 ， 对 象 可 以 与 其 他 对 象 有 联系 ， 这 些 联系 由 指针 或 指针 序列 表示 。 
”方法 通常 和 模式 存储 在 一 起 ， 因 为 它们 完全 属于 数据 库 中 的 一 个 整体 ， 而 不 是 任何 特殊 的 
对 象 。 但 是 为 了 访问 方法 ， 一 个 对 象 的 记录 必须 有 一 个 可 以 表示 该 方法 属于 何 种 类 型 的 域 。 
无 论 是 对 象 的 标识 还 是 对 其 他 对 象 的 引用 ， 其 地 址 表示 技术 都 将 在 12.3 节 中 讨论 。 正 如 
ODL 所 规定 的 ， 关 联 作 为 对 象 的 一 部 分 ， 在 存储 中 也 同样 需要 给 予 关 注 。 因 为 我 们 不 知道 有 多 
少 个 被 关联 的 对 象 (至少 不 是 多 对 多 联系 或 多 对 一 联系 中 的 : 2” 的 那 一 方面 )， 我 们 必须 用 
变 长 记录 表示 联系 ， 这 也 是 12.4 节 中 讨论 的 主题 。 
12.1.3 数据 元 素 的 表示 
我 们 首先 考虑 基本 SQL 数 据 类 型 如 何 表示 成 记录 的 字段 。 所 有 的 数据 最 终 被 表示 成 一 个 
字 节 序列 。 例 如 ， 一 个 类 型 为 INTEGER 的 属性 通常 表示 成 两 个 或 四 个 字 节 ， 一 个 类 型 为 
FLOAT 的 属性 通常 表示 成 四 个 或 八 个 字 节 。 整 数 和 实数 表示 成 字 节 串 ， 由 机 器 的 硬件 对 字 节 
串 进行 特定 解释 ， 从 而 在 其 上 可 执行 通常 的 算术 操作 。 
定 长 字符 串 
要 表示 的 最 简单 的 字符 囊 类 型 是 由 SQL 关 型 CHAR(n) 撒 述 的 ， 它们 是 长 度 为 n 的 定 长 字符 
串 。 对 应 于 具有 这 种 类 型 属性 的 字段 是 n 字 节 的 数组 。 假 如 这 个 属性 的 值 是 长 度 小 于 n 的 字符 
串 ， 则 字 节 数组 用 特定 的 填充 符号 填充 ， 填 充 符号 的 8 位 编码 不 是 SQL 字符 串 的 合法 字符 。 
例 12.1 ”如 果 一 个 属性 4 声明 是 类 型 cHAR (5) ， 则 在 所 有 的 元 组 中 与 4 对 应 的 字段 是 个 
5 字符 数组 。 如 果 在 一 个 元 组 中 ， 对 应 于 属性 4 的 成 分 是 “cat”， 则 这 个 数组 的 值 是 : 


catl i 


EF, LE “BO” FH, CAR MRR BE. BER, ESLER PHRA 
字符 串 所 必须 使 用 的 单 引号 并 不 与 字符 串 的 值 一 起 存储 。 口 
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变 长 字符 串 

有 了 时， 一 个 关系 中 某 一 列 的 值 是 长 度 变 化 很 大 的 字符 串 。SQL 类 型 VARCHAR (n) BR 
用 作 这 样 的 列 的 类 型 。 但是， 对 以 这 种 方法 声明 的 属性 我 们 打算 采用 的 实现 方法 是 将 n+1 字 
节 用 于 字符 串 值 ， 而 不 管 字符 串 值 的 长 度 。 这 样 ，SQL VARCHAR 类 型 实际 上 表示 定 长 字段 ， 
尽管 它 的 值 的 长 度 可 变 。 我 们 将 在 12.4 节 考查 其 表示 长 度 可 变 的 字符 串 。 对 VARCHRAR 字 符 串 
有 两 种 常见 的 表示 : 

1. 长 度 加 内 容 。 我 们 分 配 一 个 n+1 字 节 的 数组 。 第 一 个 字 节 存储 字符 串 中 字 节 数 ， 是 一 
个 8 位 二 进 制 整数 。 字 符 串 不 能 超过 字符， 而 n 本 身 不 能 超过 255， 否 则 我 们 将 不 能 在 一 个 
字 节 内 表示 长 度 ” 。 第 二 个 及 以 后 的 字 节 存储 字符 串 中 的 字符 。 如 果 因 为 字符 串 比 可 能 的 最 长 
值 要 短 ， 数 组 中 存在 不 被 使 用 的 字 节 ， 那 么 这 些 字 节 都 被 忽略 。 它 们 不 可 能 被 当 作 值 的 一 部 
分 ， 因 为 第 一 字 节 告诉 我 们 字符 串 何 时 终止 。 

2. 室 值 -终止 字符 囊 。 我 们 再 为 字符 串 的 值 分 配 一 个 n+1 字 节 的 数组 。 用 字符 串 的 字符 填 
充 这 个 数组 ， 其 后 跟 一 个 空 字符 ， 它 不 是 可 以 出 现在 字符 串 中 的 合法 字符 。 与 第 一 种 方法 类 
似 ， 数 组 中 没有 使 用 的 位 置 不 可 能 被 当 作 值 的 一 部 分 ; 这 里 ， 空 值 终 止 符 警 告 我 们 不 能 再 继 
续 往 下 找 ， 同 时 也 使 VARCHAR 字 符 串 的 表示 与 C 中 字符 串 的 表示 兼容 。 


对 术语 的 注释 
如 果 你 使 用 过 文件 系统 、 传 统 编 程 语言 如 C、 关 系数 据 库 语 言 ( 特别 地 ， 如 SQL ) 或 
面向 对 象 的 语言 (如 ，Smalitalk，C++， 或 面向 对 象 的 数据 库 语 言 OQL )， 根 据 你 经 验 的 
不 同 ， 对 一 些 实质 上 相同 的 概念 你 可 能 知道 的 术语 也 不 一 样 。 下 面 这 个 表 总 结 了 这 些 术 
语 的 对 应 关系 ， 尽 管 它们 有 差异 , 例如， 类 可 有 方法 ， 而 关系 不 可 以 有 。 


数据 元 素 
文件 
数组 ,文件 
关系 
(一 个 类 的 ) 外 延 





例 12.2 ”假设 属性 A 声明 为 VARCHAR (10) 。 在 每 个 元 组 的 记录 中 ， 我 们 为 4 的 值 分 配 1 
个 字符 的 一 个 数组 。 假 设 cat 是 要 表 东 的 字符 串 ， 则 在 方法 1 中 ， 我 们 将 会 把 3 放 和 第 一 个 字 
节 中 来 表示 字符 串 的 长 度 ， 接 下 的 3 个 字符 是 字符 申 本 身 。 最 后 的 7 个 位 置 是 无 关 的 。 从 而 什 
看 来 是 : 


3cat 


注意 “3” 是 8 位 二 进 制 整数 3， 即 00000011， 而 不 是 字符 “3”。 

在 第 二 种 方法 中 ， 我 们 用 字符 串 填充 前 3 个 位 置 ， 第 四 个 位 置 是 空 字符 我 们 使 用 符号 上， 
正如 我 们 选择 “填充 ”字符 一 样 )， 余 下 的 7 个 位 置 是 无 关 的 。 从 而 ， 是 cat 的 空 值 -终止 字符 串 
表示 。 口 


cat L 


但 ”当然 我 们 可 使 用 两 个 或 更 多 字 节 专用 于 长 度 的 模式 。 
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日 期 和 时 间 

正如 在 6.1.4 节 中 提 到 的 ， 日 期 通常 表示 为 符合 某 种 格式 的 定 长 字符 串 ， 因 此 我 们 可 以 像 
表示 其 他 定 长 字符 串 一 样 表示 日 期 。 一 个 时 间 很 容易 表示 为 定 长 字符 串 。 但 是 SQL 标准 中 还 多 

57 许 使 用 ?TIME 类 型 的 值 以 包含 秒 的 小 数 。 因 为 这 种 字符 串 是 任意 长 的 ， 所 以 我 们 有 两 种 选择 ， 

1. 系统 可 在 时 间 的 精确 度 上 加 以 限制 ， 然 后 把 时 间作 为 类 型 VARCHAR (n) 存储 ，n 是 时 间 
可 以 有 的 最 大 长 度 ， 即 9 加 上 秒 中 允许 的 小 数位 数 。 

2. 可 把 时 间作 为 真正 的 变 长 值 存储 ， 如 在 12.4 节 中 讨论 的 那样 来 处 理 它们 。 
二 进 制 位 

二 进 制 位 序列 (在 SQL 中 用 类 型 BTT() 描 述 的 数据 ) 可 以 按 每 8 位 构成 一 个 字 节 的 方式 组 
装 起 来 。 如 果 n 不 能 被 8 整除 ， 则 我 们 最 好 忽略 最 后 一 个 字 节 中 未 用 的 二 进 制 位 。 例 如 ， 二 进 
制 位 序列 010111110011 表 示 成 01011111 为 第 一 个 字 节 ，00110000 为 第 二 个 字 节 ， 而 最 后 4 个 
“0” 不 是 任何 字段 的 一 部 分 。 布 尔 值 可 以 作为 这 种 情况 的 特例 即 单独 的 一 位 来 表示 ， 即 
10000000 为 “ 真 ”而 用 00000000 表 示 “ 假 "。 但 在 某 些 情况 下 ， 如 果 我 们 使 每 一 位 都 不 同 ， 例 
如 用 11111111 表 示 “ 真 ”而 00000000 表 示 “ 假 "” ， 则 布尔 值 的 检测 更 容易 一 些 。 
枚 举 类 型 

有 时 让 属性 从 一 个 小 的 、 固 定 的 值 集中 取 值 是 有 用 的 。 这 些 值 被 赋予 符号 名 称 ， 而 包含 
所 有 这 些 名 称 的 类 型 是 一 个 枚 举 类 型 。 有 关 枚 举 类 型 的 常见 例子 是 一 周 中 的 各 天 ， 如 {SUN， 
MON，TUE，WED，THU，FRI，SAT}， 或 颜色 和 集 ， 如 {RED,，GREEN, BLUE, YELLOW}。 

我 们 可 以 使 用 整数 编码 表示 一 个 枚 举 类 型 的 值 ， 使 用 的 字 节 数 恰好 能 满足 所 需 。 例 如 ， 
我 们 可 以 用 0 表示 RED，1 表 示 GREEN，2 表 示 BLUE，3 表 示 YELLOW。 这 些 整 数 都 可 以 用 两 个 
二 进 制 位 表示 ,分 别 是 00、01、10 和 11。 但 使 用 整个 字 节 表示 从 一 个 小 集合 中 选择 的 整数 更 
方便 ， 如 YELLOW 由 整数 3 表示 ， 即 一 个 8 位 字 节 00000011。 任何 不 大 于 256 个 值 的 枚 举 类 型 都 
可 由 单一 字 节 表示 ， 如 果 枚 举 类 型 有 2's 个 值 ， 则 两 个 字 节 的 短 整 数 就 足够 了 。 依 此 类 推 。 


12.2 记录 


现在 我 们 开始 讨论 字段 如 何 组 装 成 记录 ，12.4 节 将 继续 讨论 变 长 字段 和 记录 。 
总 的 来 说 ,数据库 系统 使 用 的 每 一 种 记录 类 型 必须 有 一 个 模式 。 模 式 由 数据 库存 储 ， 包 
括 记录 中 字段 的 名 称 和 数据 类 型 ， 以 及 在 记录 内 它们 的 偏 移 量 。 需 要 存 取 记录 的 组 成 部 分 时 
将 参考 模式 。 






将 字段 组 装 成 单一 字 忆 

人 们 可 能 想 充分 利用 小 的 枚 举 类 型 或 布尔 型 字段 的 特点 ， 将 几 个 这 样 的 字段 组 装 成 
单一 字 节 。 如 ， 我 们 有 三 个 字段 ， 分 别 是 一 个 布尔 型 、 周 中 的 某 一 天 和 四 种 颜色 中 的 一 
种 ， 那 么 我 们 可 使 用 1 个 二 进 制 位 表示 第 一 个 字段 ，3 个 二 进 制 位 表示 第 二 个 字段 ， 两 个 
二 进 制 位 表示 第 三 个 字段 。 将 这 三 个 字段 全 放 入 一 个 字 节 中 ， 这 个 字 节 还 能 剩 下 两 个 二 
进 制 位 。 尽 管 完全 可 以 这 样 做 ， 但 是 它 使 得 检索 其 中 一 个 字段 的 值 和 向 其 中 一 个 字段 写 
入 新 值 变 得 比较 复杂 ， 而 且 容易 出 错 。 这 种 字段 组 装 方法 曾经 比较 重要 ， 因 为 那 时 存储 
空间 比较 昂贵。 现在 ， 我 们 在 一 般 情 况 下 不 主张 使 用 它 。 


12.2.1 定 长 记录 的 构造 
元 组 由 记录 表示 ， 而 记录 由 12.1.3 节 所 讨论 的 各 种 字段 组 成 。 最 简单 的 情况 是 记录 的 所 有 
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字段 均 为 定 长 ， 则 我 们 可 将 字段 连接 成 记录 。 

例 12.3 考虑 图 12-1 中 关系 MovieStazr 的 声明 ， 有 下 列 四 个 字段 : 

1. name, 一 个 30 字 节 的 字符 串 。 

2. address, VARCHAR (255) 类 型 。 如 果 采 用 例 12.2 中 讨论 的 方案 ， 这 个 字段 用 256 个 字 

节 表 示 。 

3. gender, 单一 字 节 ， 我 们 认为 它 总 是 保存 字符 “F” 或 字符 “M”。 

4. birthdate, DATE 类 型 。 我 们 将 假设 用 10 字 节 长 的 SQL 日 期 表示 这 个 字段 。 
所 以 ，Moviestar 类 型 的 记录 占 30+256+1+10=297 字 节 ， 如 图 12-2 所 示 。 我 们 指出 了 每 个 字 
段 的 偏 移 量 ， 即 从 记录 开始 到 这 个 字段 自身 开始 处 的 字 节 数 。 从 图 中 可 以 看 到 ， 字 段 name 在 
偏 移 量 0 处 开始 ， 字 段 adaaress 在 偏 移 量 30 处 开始 ， gender 在 偏 移 量 286 处 开始 ， 
birthdate 在 偏 移 量 287 处 开始 。 口 





0 30 286 287 297 
图 12-2 一 个 Moviestar 记 录 


有 些 机 器 可 以 对 主 存 中 地 址 为 4 的 倍数 ( 或 8 的 倍数 ， 如 果 机 器 有 64 位 处 理 器 ) 的 字 节 处 
开始 的 数据 进行 更 有 效 的 读 写 。 某 些 数 据 类 型 ， 如 整数 ， 也 许 要 求 必 须 从 4 的 倍数 的 地 址 处 开 
始 ， 而 其 他 的 数据 类 型 ， 如 双 精 度 实数 ， 可 能 需要 从 8 的 倍数 处 开始 。 

当 关系 的 元 组 存储 在 磁盘 中 而 不 是 存储 在 主 存 中 时 ， 我 们 必须 注意 这 个 问题 。 原 因 在 于 
当 我 们 将 一 个 块 从 磁盘 读 到 主 存 中 时 ， 块 的 第 一 个 字 节 肯 定 被 放置 在 4 的 倍数 的 主 存 地 址 处 ， 
事实 上 将 是 2 的 某 个 高 次 寡 的 倍数 处 ， 例 如 ， 如 果 块 和 页 的 长 度 为 4096=212， 则 为 22 的 倍数 。 
某 些 字 段 需 装 载 到 首 字 节 地 址 为 4 或 8 倍数 的 主 存 处 这 一 需求 ， 因 而 转换 成 这 些 字 段 在 块 内 的 
偏 移 量 必须 具有 与 此 相同 的 因子 。 

为 简便 起 见 ， 我 们 假设 对 数据 的 惟一 要 求 是 字段 从 地 址 为 4 的 倍数 的 主 存 字 节 处 开始 ， 那 
么 有 下 面 两 条 就 足够 : 

a) 每 一 条 记录 在 块 内 从 4 的 倍数 的 字 节 处 开始 ， 而 且 

b) 记录 中 所 有 的 字段 都 从 与 记录 起 始 偏 移 量 为 4 的 倍数 的 字 节 处 开始 。 

换 一 种 说 法 ， 我 们 将 所 有 的 字段 和 记录 长 度 进 到 下 一 个 4 的 倍数 。 

例 12.4 假设 关系 MovieStazr 的 元 组 需要 表示 成 每 一 个 字段 从 4 的 倍数 的 字 节 处 开始 ， 

则 4 个 字段 的 偏 移 量 是 0、32、288 和 292 ， 并 且 整 条 记录 占 304 个 字 节 ， 其 格式 如 图 12-3 所 示 。 


Un 
~J 
w 


gender 





0 32 288 292 304 
图 12-3 MovieStar 元 组 在 要 求 字段 从 4 字 节 的 倍数 处 开始 的 格式 


例如 ， 第 一 个 字段 name 占 30 个 字 节 。 对 于 第 二 个 字段 ， 我 们 只 能 从 下 一 个 4 的 倍数 或 偏 
移 量 32 处 开始 ， 因 而 address 在 记录 格式 中 的 偏 移 量 为 32。 第 二 个 字段 长 度 为 256 个 字 节 ， 
这 意味 着 addqress 后 第 一 个 可 用 的 字 节 为 288。 虽 然 第 三 个 字段 genqer 只 需 一 个 字 节 ， 但 是 
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最 后 一 个 字段 必须 从 下 一 个 4 的 倍数 即 292 的 字 节 处 开始 。 第 四 个 字段 birthqate 长 度 为 10 个 
字 节 ， 在 字 节 301 处 结束 ， 这 样 ， 记 录 的 长 度 为 302( 注意 第 一 个 字 节 标号 为 0 )。 但 如 果 所 有 
记录 的 所 有 字段 必须 在 4 的 倍数 的 字 节 处 开始 ， 标 号 为 302 和 303 的 字 节 是 无 用 的 ， 因 此 记录 实 
际 占 304 个 字 节 。 我 们 将 把 字 节 302 和 303 分 配给 字段 birthdate， 使 得 它们 不 会 被 偶然 用 于 
任何 其 他 目的 。 口 


记录 模式 的 必要 性 
我 们 可 能 想 知 道 ， 了 既然 目前 我 们 只 考虑 定 长 记录 ， 为 什么 还 需要 在 记录 自身 中 指明 
记录 模式 。 例 如 ， 用 于 C 或 类 似 语言 中 的 一 个 “结构 ”中 的 字 笑 ， 当 程序 运行 时 不 存储 
它们 的 偏 移 量 ,而 偏 移 量 被 编译 到 访问 该 结构 的 应 用 程序 中 。 


但 有 几 个 理由 说 明 为 什么 必须 存储 记录 模式 , 而 且 让 DBMS 能 够 访问 它 。 原因 之 一 ， 
是 关系 模式 ( 和 表示 其 元 组 的 记录 模式 ) 可 能 会 改变 。 查 询 需 要 使 用 这 些 记录 的 当前 
模式 ， 因 而 需要 知道 当前 模式 。 在 其 他 情况 下 ， 我 们 不 可 能 仅仅 从 记录 在 存储 系统 中 
的 位 置 立刻 判断 出 它 的 类 型 。 例 如 ， 一 些 存 储 组 织 允 许 不 同 关系 的 元 组 出 现在 同一 存 
储 块 中 。 





12.2.2 记录 首部 

当 我 们 设计 记录 的 格式 时 ， 必 然 会 引出 另 一 个 问题 : 通常 在 记录 中 需要 保存 一 些 信息 ， 
而 这 些 信 息 不 是 任何 字段 的 值 。 例 如 ， 我 们 可 能 想 在 记录 中 保存 : 

1. 记录 模式 ， 或 更 可 能 是 指向 DBMS 中 存储 该 类 记录 模式 的 位 置 的 一 个 指针 ; 

2. 记录 长 度 ; 

3. 时 间 截 ， 指 明 记录 最 后 一 次 被 修改 或 被 读 的 时 间 以 及 其 他 可 能 的 信息 。 因 此 ， 许 多 记 
录 格 式 包 括 一 个 由 数目 不 多 的 字 节 组 成 的 首部 ， 以 提供 这 种 额外 信息 。 

数据 库 系统 维护 模式 信息 ， 模 式 信息 主要 是 出 现在 为 那个 关系 所 写 的 CREATE TABLE 语 
句 中 的 信息 : 

1. 关系 的 属性 。 

2. PER, 

3. 属性 在 元 组 中 出 现 的 顺序 。 

4. 属性 或 关系 自身 上 的 约束 ， 如 主键 声明 ， 或 约束 某 个 整数 属性 的 值 必须 在 某 一 范围 内 。 

我 们 不 必 把 所 有 这 些 信息 都 放 人 元 组 的 记录 首部 ， 只 需 在 记录 首部 设置 一 个 指针 ， 让 它 
指向 存储 该 元 组 所 属 关系 信息 的 位 置 就 足够 了 7 了。 那么 在 需要 时 所 有 这 样 的 信息 都 可 以 获得 。 

下 如 ， 尽 管 元 组 长 度 可 从 它 的 模式 中 推断 出 来 ,但 是 在 记录 中 存储 长 度 信息 会 更 方便 些 。 
例如 ， 我 们 可 能 不 希望 细 查 记录 内 容 ， 只 想 快速 地 找到 下 一 条 记录 的 开始 ， 长 度 字段 可 让 我 
们 避免 存 取 记 录 的 模式 ， 而 存 取 记 录 模式 可 能 要 进行 的 磁盘 1/O。 

例 12.5 ”让 我 们 修改 例 12.4 中 的 格式 以 包含 一 个 12 字 节 长 的 首部 。 第 一 个 4 字 节 为 类 型 ， 
实际 上 它 是 在 存储 所 有 关系 模式 的 区 域 中 的 一 个 偏 移 量 ; 第 二 个 4 字 节 是 记录 长 度 ， 它 是 一 个 
4 字 节 整数 ; 第 三 个 4 字 节 是 时 间 戳 ， 指明 元 组 插入 或 最 后 一 次 被 修改 的 时 间 。 时 间 戳 也 是 一 
个 4 字 节 整数 。 所 得 到 的 格式 如 图 12-4 所 示 。 现 在 记录 的 长 度 是 316 个 字 节 。 口 
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指向 模式 的 指针 





0 . 1 44 300 304 316 ` 


图 12-4 给 表示 关系 MovieStar 的 元 组 的 记录 加 一 些 首部 信息 


12.23 定 长 记录 在 块 中 的 放置 
表示 关系 元 组 的 记录 存储 在 磁盘 块 中 。 当 我 们 需要 存 取 或 修改 记录 时 ， 记 录 ( 与 整个 块 
一 起 ) 就 被 移 进 主 存 。 存 储 记录 的 块 的 格式 如 图 12-5 所 示 。 
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图 12-5 一 个 典型 的 存储 记录 的 块 


它 有 一 个 可 选 的 块 首部 ， 存 储 诸如 以 下 各 种 信息 : 

1. 与 一 个 或 多 个 其 他 块 的 链接 ， 这 些 块 构成 一 个 块 的 网 络 ， 例 如 在 第 13 章 中 所 描述 的 为 一 
个 关系 的 元 组 创建 索引 的 块 。 

2. 关于 这 个 块 在 这 样 一 个 网 络 中 所 扮演 的 角色 的 信息 。 

3. 关于 这 个 块 的 元 组 属于 哪个 关系 的 信息 。 

4. 一 个 给 出 每 一 条 记录 在 块 内 偏 移 量 的 “目录 ”。 

5. 一 个 “ 块 ID”， 参 见 12.3 节 。 

6. 指明 块 最 后 一 次 修改 和 /或 存 取 时 间 的 时 间 惟 。 

到 目前 为 止 ， 最 简单 的 情况 是 块 存储 一 个 关系 的 元 组 ， 并 且 元 组 的 记录 有 固定 格式 。 在 这 
种 情况 下 ， 在 块 首部 的 后 面 ， 我 们 把 尽 可 能 多 的 记录 装 和 人 块 内 ， 而 留 下 剩余 空间 不 用 。 

例 12.6 假设 我 们 要 存储 具有 例 12.5 所 示 格 式 的 记录 ， 这 些 记 录 长 度 为 316 字 节 。 我 们 还 假 
设 使 用 4096 字 节 的 块 。 其 中 ，12 个 字 节 用 于 块 首部 ,剩余 4084 字 节 由 数据 使 用 。 在 这 个 空间 中 ， 
我 们 能 装 人 12 条 给 定 的 316 字 节 格式 的 记录 ， 每 一 块 有 292 个 字 节 是 被 浪费 的 的 空间 。 口 


12.2.4 习题 
* 习题 12.2.1 假设 一 条 记录 有 如 下 所 示 顺 序 的 字段 : 一 个 长 度 为 15 的 字符 串 ， 一 个 2 字 节 整 
数 ， 一 个 SQL 日 期 ， 一 个 SQL 时 间 (无 小 数 点 )。 如 果 
a) 字段 可 在 任何 字 节 处 开始 ; 
b) 字段 必须 在 4 的 倍数 的 字 节 处 开始 ; 
c) 字段 必须 在 8 的 倍数 的 字 节 处 开始 ; 
这 条 记录 占用 多 少 个 字 节 ? 
习题 12.2.2 对 字段 序列 : 一 个 8 字 节 实数 ， 一 个 长 度 为 17 的 字符 串 ， 单 独 一 个 字 节 ， 一 
SQL 日 期 ， 重 做 习题 12.2.1。 . 
习题 12.2.3 ”假设 字段 同 习 题 12.2.1， 但 是 记录 有 一 个 首部 ， 它 由 两 个 4 字 节 的 指针 和 一 个 
字符 组 成 。 对 习题 12.2.1 中 的 (a) ~ (c) 三 种 情况 ， 计 算 记录 长 度 。 . 
习题 12.2.4 如 果 记 录 包 括 一 条 记录 首部 , 它 由 一 一 个 8 字 节 的 指针 和 10 个 两 字 节 的 整数 组 成 ， 
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重 做 习题 12.2.2。 

* 习题 12.2.5 ”假设 记录 同 习题 12.2.3， 且 我 们 希望 在 一 个 4096 字 节 的 块 中 装 人 尽 可 能 多 的 
记录 ， 使 用 的 块 首部 由 10 个 4 字 节 的 整数 组 成 。 对 习题 12.2.1 中 的 三 种 情况 ， 我 们 各 能 将 多 
少 记录 装 入 块 中 ? | 
习题 12.2.6 ”假设 块 长 度 为 16 384 字 节 ， 块 首部 由 3 个 4 字 节 的 整数 和 一 个 对 块 中 每 一 条 记 
录 有 一 个 2 字 节 整数 的 目录 组 成 。 对 习题 12.2.4 的 记录 重 做 习题 12.2.5。 


12.3” 块 和 记录 地 址 的 表示 


在 继续 研究 如 何 表示 具有 更 复杂 结构 的 记录 之 前 , 我 们 必须 考虑 如 何 表示 记录 和 块 的 地 址 、 
指针 或 引用 ， 因 为 这 些 指针 通常 构成 复杂 记录 的 一 部 分 。 有 些 其 他 的 原因 使 我 们 还 必须 了 解 第 
二 级 存储 器 中 的 地 址 表示 。 我 们 在 第 13 章 中 研究 表示 文件 或 关系 的 有 效 结构 时 ， 将 看 到 块 地 址 
或 记录 地 址 的 几 个 重要 用 途 。 

当 块 被 加 载 到 主 存 缓冲 区 时 ， 块 地 址 可 作为 其 第 一 个 字 节 的 虚拟 的 存储 器 地 址 ， 且 块 内 记 
录 的 地 址 是 该 记录 第 一 个 字 节 的 虚拟 的 存储 器 地 址 。 但 是 在 第 二 级 存储 器 中 ， 块 不 是 应 用 的 虚 
拟 的 存储 器 地 址 空间 的 一 部 分 ， 事 实 上 ， 有 一 个 字 节 序列 描述 块 在 DBMS 可 访问 的 整个 数据 系 
统 中 的 地 址 : 磁盘 的 设备 ID， 柱 面 号 ， 等 等 。 记 录 可 通过 它 所 在 的 块 和 其 第 一 个 字 节 在 块 内 的 
偏 移 量 来 标识 。 

最 近 , “对象 代 理 ” 成 为 一 种 趋势 ， 它 允许 许多 协作 系统 独立 创建 对 象 ， 这 使 得 地 址 表示 
进一步 复杂 化 。 这 些 对 象 可 由 作为 面向 对 象 DBMS 一 部 分 的 记录 来 表示 ， 尽 管 我 们 可 以 将 它们 
想像 成 关系 的 元 组 而 不 会 失去 主要 思想 。 然 而 ， 对 象 或 记录 的 独立 创建 给 维护 记录 地 址 的 机 制 
增加 了 额外 的 压力 。 

在 这 一 节 中 ， 我 们 将 首先 讨论 地 址 空间 ， 特 别 是 与 常用 的 DBMS“ 客 户 -服务 器 ”体系 结构 
有 关 的 地 址 空间 ; 然后， 我 们 讨论 表示 地 址 的 可 用 方法 ; 最 后 看 一 下 “指针 混 写 "， 这 种 方法 
使 我 们 能 将 数据 服务 器 空间 中 的 地 址 转换 成 客户 端 应 用 程序 空间 中 的 地 址 。 

12.3.1 客户 -服务 器 系统 

通常 ， 数 据 库 包括 一 个 服务 器 进程 ， 它 为 一 个 或 多 个 客户 端 进程 提供 第 二 级 存储 器 数据 ， 
客户 端 进程 是 使 用 数据 的 应 用 程序 。 服 务 器 和 不 同 的 客户 端 进程 可 以 在 一 台 机 器 上 ， 也 可 分 布 
在 许多 机 器 上 。 参 见 8.3.4 节 ， 这 一 节 中 首次 介绍 了 上 述 概念 。 

客户 端 应 用 使 用 常规 的 “虚拟 ”地 址 空间 ， 通 常 为 32 位 即 有 大 约 40 亿 不 同 的 地 址 。 操 作 
系统 或 DBMS 决 定 地 址 空间 的 哪些 部 分 目前 在 内 存 中 ， 而 硬件 则 将 虚拟 地 址 空间 映射 到 主 存 
的 物理 地 址 。 我 们 不 进一步 考虑 这 个 虚拟 到 物理 的 转换 问题 ， 而 是 将 客户 端 地 址 空间 ， 看 做 
主 存 本 身 。 

数据 库 的 数据 存在 于 数据 库 地 址 空间 。 这 个 空间 的 地 址 指向 块 或 块 内 的 偏 移 。 这 个 地 址 
空间 寻 址 的 方式 可 以 描述 为 ; 

1, 物理 地 址 : 物理 地 址 是 字 节 串 ， 据 此 我 们 可 确定 第 二 级 存储 系统 内 块 或 记录 的 位 置 。 下 
面 各 项 都 使 用 物理 地 址 的 一 个 或 多 个 字 节 来 指明 : 

(a) 存储 所 连接 的 主机 ( 如 果 数据 库存 储 在 不 只 一 台 机 器 上 ) ; 
(b) 据 所 在 的 磁盘 或 其 他 设备 的 标识 符 ; 

(c) 磁盘 的 柱 面 号 ; 

(d) 柱 面 内 磁道 号 〈 如 果 磁 盘 有 不 只 一 个 盘面 ) ; 
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(e) 磁道 内 块 号 ; 
(O (在 某 些 情况 下 ) 记录 起 始 在 块 内 的 偏 移 量 。 

2. 2a: 每 一 个 块 或 记录 有 -一 个 “逻辑 地 址 ?， 这 是 具有 某 个 固定 长 度 的 一 个 任意 字 
节 串 。 存 储 在 磁盘 上 一 个 已 知 位 置 的 映射 才 将 逻辑 地 址 与 物理 地 址 联系 起 来 ， 如 图 12-6 所 示 。 

注意 ， 物 理 地 址 很 长 ， 如 果 要 包含 所 有 列 出 的 
元 素 ，8 字 节 是 我 们 能 使 用 的 最 小 长 度 ， 有 些 系统 zana 
使 用 的 地 址 长 达 16 字 节 。 例 如 ， 想 像 设 计 一 个 要 用 逻辑 地 址 
100 年 的 对 象 数据 库 。 将 来 数据 库 可 能 会 增长 到 包 
含 一 百 万 台 机 器 ， 而 每 一 台 机 器 可 能 会 快 到 每 一 纳 
秒 创建 一 个 对 象 ， 这 个 系统 将 创建 大 约 27 个 对 象 ， 
它 最 小 需要 10 个 字 节 来 表示 地 址 。 因 为 我 们 可 能 更 物理 地 址 
倾向 于 预 留 一 些 字 节 来 表示 主机 ， 另 一 些 字 节 表示 
存储 单元 等 ， 因 此 对 如 此 规模 的 系统 ， 一 个 合理 的 。 图 12-6 映射 表 将 逻辑 地 址 转换 成 物理 地 址 
地 址 表示 可 能 要 使 用 到 比 10 大 得 多 的 字 节 数 。 
12.3.2 ， 运 辑 地 址 和 结构 地 址 

人 们 可 能 想 知道 使 用 逻辑 地 址 的 目的 是 什么 。 虽 然 物 理 地 址 所 需 的 信息 都 可 在 跌 射 表 中 找 
到 ， 而 且 跟 踪 指 向 记录 的 逻辑 指针 需要 参考 映射 表 ， 然 后 才能 找到 物理 地 址 ， 但 是 与 映射 表 有 
关 的 间接 层次 给 我 们 提供 了 相当 大 的 灵活 性 。 例 如 , 许多 数据 组 织 方式 要 求 我 们 到 处 移动 记录 ， 
或 者 在 块 内 或 者 从 一 个 块 移 到 另 一 个 块 。 如 果 我 们 使 用 映射 表 ， 则 所 有 指向 这 条 记录 的 指针 参 
考 这 个 映射 表 ， 当 我 们 移动 或 删除 记录 时 ， 必 须 做 的 是 改变 表 中 这 条 记录 对 应 的 表 项 。 

逻辑 地 址 和 物理 地 址 的 多 种 组 合 也 是 可 能 的 ， 得 到 的 是 结构 化 的 地 址 模式 。 例 如 ， 人 们 可 
使 用 抉 的 物理 地 址 ( 而 不 是 块 内 的 偏 移 量 ) 加 上 被 访问 的 记录 的 码 值 。 那 么 ， 为 找到 一 个 具有 
这 种 结构 地 址 的 记录 ， 我 们 可 使 用 物理 地 址 部 分 找到 包含 那 条 记录 的 块 ， 然 后 检查 块 内 记录 以 
找到 具有 合适 的 码 的 记录 。 

当然 ， 为 检查 块 内 记录 ， 我 们 需要 有 足够 多 的 信息 对 它们 进行 定位 。 最 简单 的 情况 是 ， 记 
录 是 具有 已 知 的 固定 长 度 的 类 型 ， 而 码 字段 具有 已 知 的 偏 移 量 。 那 么 我 们 只 需 在 块 首部 找到 块 
内 记录 的 条 数 ， 并 且 我 们 精确 地 知道 哪里 能 找到 可 能 与 作为 地 址 一 部 分 的 码 值 匹配 的 码 字段 。 
但 是 还 有 许多 对 块 进行 组 织 的 其 他 方法 可 以 使 我 们 能 检查 块 内 记录 ， 稍 后 我 们 将 讨论 这 些 方法 。 

一 个 相似 且 非 常 有 用 的 物理 和 逻辑 地 址 的 组 合 是 在 每 一 个 块 内 存储 一 个 偏 移 量 表 ， 它 保存 
块 内 记录 的 偏 移 量 ， 如 图 12-7 所 示 。 注 意 表 是 从 块 的 前 端 向 后 增长 ， 而 记录 是 从 块 的 后 端 开始 
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图 12-7 一 个 有 偏 移 量 表 的 块 ， 该 表 告 诉 我 们 块 内 每 一 条 记录 的 位 置 
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[580] 放置 。 当 记录 不 等 长 时 ， 这 种 策略 很 有 用 ， 因 为 我 们 事先 不 知道 块 能 存储 多 少 记录 ， 而 且 我 们 
不 必 一 开始 就 给 这 个 表 分 配 固定 大 小 的 块 首部 。 
现在 ,记录 的 地 址 是 块 的 物理 地 址 加 上 该 记录 在 此 块 的 偏 移 量 表 项 中 的 偏 移 量 。 这 种 块 内 
间接 层次 提供 了 逻辑 地 址 的 许多 长 处 ， 而 不 需要 一 个 全 局 映射 表 。 
。 可 以 在 块 内 移动 记录 ， 我 们 所 要 做 的 只 是 改变 记录 在 偏 移 量 表 中 的 表 项 ; 指向 这 条 记录 
的 指针 仍 能 找到 它 。 
“如 果 偏 移 量 表 项 足够 大 ， 能 存储 这 条 记录 的 “转向 地 址 "， 我 们 甚至 可 以 允许 记录 移 到 
另 一 个 块 。 
最后， 如果 记录 被 删除 ， 我 们 可 选择 在 它 的 偏 移 量 表 项 中 留 下 一 删除 标记 ， 即 一 个 标示 
记录 被 删除 的 特殊 值 。 记 录 删 除 前 ， 指 向 这 条 记录 的 指针 可 能 已 存储 在 数据 库 中 的 不 同 
地 方 。 记 录 删 除 后 ， 沿 指向 这 条 记录 的 指针 ， 找 到 删除 标记 ， 然 后 指针 要 么 被 一 个 空 指 
针 代替 ， 要 人 么 修改 数据 结构 以 反映 记录 的 删除 。 如 果 我 们 不 留 下 删除 标记 ， 指 针 可 能 会 
指 到 一 些 新 记录 上 ， 产 生意 外 的 错误 结果 。 
123.3 指针 混 写 
指针 或 地 址 经 常 是 记录 的 一 部 分 。 尽 管 表示 关系 元 组 的 记录 不 常 遇 到 这 种 情况 ， 表 示 对 象 
的 元 组 却 常 遇 到 这 种 情况 。 现 代 对 象 关 系数 据 库 系统 也 允许 属性 是 指针 类 型 (或 引用 )， 因 此 
[581] 即使 是 关系 系统 也 要 能 在 元 组 中 表示 指针 。 还 有 -一 点 ,索引 结构 由 内 部 有 指针 的 块 组 成 。 所 以 ， 
必须 研究 块 在 主 存储 器 和 第 二 级 存储 器 之 间 移 动 时 的 指针 管理 。 我 们 在 本 节 讨论 这 一 点 。 
如 前 面 所 述 ， 每 一 个 块 、 记 录 、 对 象 或 其 他 可 引用 的 数据 项 都 有 两 种 地 址 形式 ; 


主 存 地 址 空间 的 属 主 

在 本 节 中 ， 我 们 讨论 了 一 种 在 第 二 级 存储 器 与 主 存储 器 之 间 的 转换 ， 其 中 每 一 个 客 
户 端 拥 有 自己 的 主 存 地 址 空间 ， 而 数据 库 地 址 室 间 是 共享 的 。 这 种 模型 在 面向 对 象 
DBMS 中 是 很 普遍 的 。 但 是 ， 关 系 系统 经 常 将 主 存 地 址 空间 当成 共享 的 ， 以 支持 我 们 将 
在 第 17 章 和 第 18 章 中 讨论 的 恢复 和 并 发 。 

一 种 有 用 的 折 中 方法 是 在 服务 器 端 有 一 个 共享 的 主 存 地 址 空间 ， 而 在 客户 端 有 此 空 
间 的 一 部 分 的 拷贝 。 这 种 组 织 方法 支持 恢复 和 并 发 ， 同 时 也 允许 处 理 以 “可 扩展 的 ” 方 
ADA, 客户 端 越 多 ， 能 运用 的 处 理 器 越 多 。 


1. 它 在 服务 器 的 数据 库 地 址 空间 中 的 地 址 ， 通 常 是 一 个 8 字 节 左右 的 序列 ， 指 明 数 据 项 在 
系统 的 第 二 级 存储 器 中 的 地 址 。 我 们 把 这 种 地 址 叫做 数据 库 地 址 。 

2. 虚拟 内 存 中 的 地 址 〈 假 如 数据 项 正 缓存 在 虚拟 内 存 中 )， 这 些 地 址 通常 是 4 个 字 节 。 我 们 
把 这 种 地 址 称 为 数据 项 的 内 存 地 址 。 

当 数据 项 位 于 第 二 级 存储 器 中 时 ， 我 们 必然 使 用 数据 库 地 址 。 但 是 当 数据 项 在 主 存 中 时 ， 
我 们 既 能 通过 它 的 数据 库 地 址 ， 也 能 通过 主 存 地 址 引用 它 。 当 数据 项 有 指针 时 ， 使 用 内 存 地 址 
更 有 效 ， 因 为 可 使 用 单一 机 器 指令 跟踪 这 样 的 指针 。 

相反 ， 跟 踪 数 据 库 地 址 要 费时 得 多 。 我 们 需要 一 个 表 将 目前 在 虚 存 中 的 所 有 数据 库 地 址 转 
换 成 它们 的 当前 内 存 地 址 。 这 样 的 转换 表 如 图 12-8 所 示 。 它 可 能 会 使 人 联想 到 图 12-6 中 逻辑 和 
物理 地 址 的 映射 表 。 但是， 

a) 逻辑 和 物理 地 址 都 是 数据 库 地 址 的 表示 ， 而 转换 表 中 内 存 地 址 用 于 相应 对 象 在 内 存 中 的 
拷贝 。 
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b) 数据 库 中 所 有 可 访问 的 数据 项 在 映射 表 中 都 有 DBaddr mem-addr 
表 项 ， 而 转换 表 只 记载 当前 在 内 存 中 的 数据 项 。 数据 库 地 址 

为 避免 将 数据 库 地 址 重复 转换 成 内 存 地 址 的 开 
销 ， 现 已 提出 几 种 技术 ， 统 称 为 指针 混 写 。 总 的 思想 
是 当 我 们 把 块 从 第 二 级 存储 器 移 到 主 存储 器 中 时 ， 块 
内 指针 可 以 “ 温 写 ”"， 即 从 数据 库 地 址 空间 转换 为 虚 主 存 地 址 
拟 地 址 空间 。 因 此 ， 一 个 指针 实际 上 包含 : 

一 个 一 Hy 前 : 
是/ nah a m n ER 目前 是 数据 库 地 址 还 。。 图 12.8 转换 表 将 数据 库 地 址 转换 

2. 数据 库 或 内 存 指针 ， 看 哪个 合适 。 无 论 当前 使 成 内 存 中 的 相应 地 址 
用 娜 一 种 地 址 形式 ， 所 用 空间 均 相 同 。 当 然 ， 若 当前 是 内 存 地 址 ， 可 能 不 使 用 整个 空间 ， 因 为 
内 存 地 址 通常 比 数据 库 地 址 短 。 

例 12.7 ”图 12-9 是 一 种 简单 情况 ， 其 中 块 1 有 一条 记录 ， 该 条 记录 有 两 个 指针 ，_ 个 指针 指向 
同一 区 中 的 第 二 条 记录 , 另 一 个 指针 指向 另 一 块 中 的 记录 。 图 中 还 表示 了 当 块 1 被 拷贝 进 内 存 中 时 ， 
可 能 会 发 生 的 事情 。 第 一 个 指针 ， 即 块 1 内 的 指针 ， 可 被 混 写 以 直接 指向 目标 记录 的 内 存 地 址 。 

但 是 ， 如 果 块 2 此 时 不 在 内 存 中 ， 那 么 我 们 不 能 混 写 第 二 个 指针 ; 它 必须 不 被 混 写 ， 并 指 
向 目标 的 数据 库 地 址 。 假 如 后 来 块 2 被 放 和 内存, 从 理论 上 说 混 写 块 1 的 第 一 个 指针 就 成 为 可 能 。 
根据 使 用 的 混 写 策略 不 同 ， 内 存 中 可 能 有 也 可 能 没有 这 样 的 指向 块 2 的 列表 ， 如 果 有 ， 我 们 可 
以 选择 在 那个 时 刻 混 写 指针 。 o 


我 们 可 以 使 用 几 种 策略 来 决定 什么 时 候 混 写 指针 。 
自动 混 写 

所 一 旦 被 放 和 内存 ， 我 们 就 为 它 的 所 有 指针 和 地 址 定位 ， 并 且 如 果 这 些 指针 和 地 址 不 在 转 
换 表 中 ， 我 们 将 它们 放 和 人 转换 表 。 这 些 指针 既 包 括 来 自 块 中 记录 并 指向 其 他 地 方 的 指针 ， 也 包 
插 块 自身 和 /或 其 记录 的 地 址 ， 如 果 它 们 是 可 访问 的 数据 项 。 我 们 需要 一 些 为 块 内 指针 定位 的 
Bil. PN: 





图 12-9 当 使 用 混 写 时 一 个 指针 的 结构 


1 如 果 块 存储 的 记录 具有 一 个 已 知 的 模式 ， 这 个 模式 将 告诉 我 们 在 记录 的 哪个 地 方 可 以 找 
到 指针 。 


2. 如 果 块 被 用 于 将 在 第 13 章 讨论 的 索引 结构 的 一 种 ， 则 块 在 已 知 位 置 存储 指针 。 
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3. 我 们 可 能 在 块 首部 存放 指针 位 置 的 一 个 列表 。 

当 我 们 将 刚刚 移 人 内 存 的 块 和 /或 某 记 录 地 址 放 人 转换 表 中 时 ， 我 们 知道 块 缓存 在 内 存 的 
何 处 ， 从 而 可 直接 创建 这 些 数据 库 地 址 的 转换 表 表 项 。 当 我 们 向 转换 表 添 加 其 中 一 个 数据 库 地 
址 4 时 ， 可 能 会 发 现 它 已 存在 于 表 中 ， 因 为 对 应 的 块 目前 正在 内 存 中 。 在 这 种 情况 下 ， 我 们 用 
相应 的 内 存 地 址 代替 刚 移 进 内 存 中 的 块 中 的 4， 并 将 “ 混 写 ”位 设 为 真 。 另 一 方面 ， 如 果 4 还 
不 在 转换 表 中 ， 说 明 它 对 应 的 块 还 未 拷贝 进 内 存 ， 那 么 我 们 不 能 泥 写 该 指针 ， 只 能 将 它 保 留 在 
块 中 作为 数据 库 指针 。 ， 

如 果 我 们 试图 跟踪 块 中 的 指针 ， 而 且 发 现 还 未 混 写 ， 即 它 具 有 数据 库 指针 形式 ， 那 么 我 
们 要 确保 包含 P 指 向 的 数据 项 的 块 3 在 内 存 中 ( 否则 为 什么 要 跟踪 那个 指针 ? )。 我 们 参考 转换 
K, 看 数据 库 地 址 P 目 前 是 否 有 相应 的 内 存 地 址 ， 如 果 没 有 ， 我 们 将 块 3 指 贝 进 内 存 缓冲 区 。 
一 旦 8 在 内 存 中 ， 我 们 就 可 以 通过 用 等 价 的 内 存 形式 代替 它 的 数据 库 形式 来 泥 写 P。 

按 需 混 写 

另 一 种 方法 是 当 块 第 一 次 被 移 人 内 存 时 ， 所 有 指针 都 不 混 写 。 我 们 将 它 的 地 址 以 及 其 指针 
的 地 址 与 相应 的 内 存 地 址 一 起 放 人 转换 表 。 当 我 们 跟踪 某 个 内 存 块 中 的 指针 P 时 ， 将 它 混 写 ， 
使 用 的 策略 与 使 用 自动 混 写 策略 时 发 现 一 个 没有 混 写 的 指针 所 使 用 的 策略 相同 。 

按 需 混 写 与 自动 混 写 的 区 别 是 当 块 被 装载 进 内 存 时 ， 后 者 试图 快速 、 有 效 地 混 写 所 有 指针 。 
我 们 必须 在 一 次 混 写 所 有 指针 可 能 节省 的 时 间 与 某 些 混 写 指针 永远 也 用 不 上 的 可 能 性 之 间 进 行 
权衡 。 在 那 种 情况 下 ， 花 费 在 混 写 和 不 混 写 指针 的 时 间 将 被 浪费 。 

一 个 有 趣 的 选择 是 通过 安排 使 数据 库 指针 看 起 来 像 无 效 的 内 存 指针 。 这 样 ， 我 们 可 以 介 
许 计算 机 跟踪 任何 指针 ， 就 像 它 是 内 存 形式 一 样 。 如 果 指 针 凑 巧 没有 被 混 写 ， 那 么 内 存 引 用 
必然 产生 一 个 硬件 陷阱 。 如 果 DBMS 提 供 一 个 函数 ， 它 由 该 陷阱 触发 ， 并 用 上 面 描 述 的 方法 
对 指针 混 写 ， 则 我 们 可 在 单一 指令 中 跟踪 混 写 的 指针 ， 并 只 有 当 指 针 未 被 混 写 时 才 需 做 一 些 
较 费 时 的 工作 。 

不 混 写 

当然 ， 永 远 不 混 写 指针 也 是 可 能 的 。 我 们 仍然 需要 转换 表 ， 以 使 指针 可 以 以 它们 未 混 写 的 
形式 被 跟踪 。 这 种 方法 确实 提供 了 记录 不 被 固定 在 内 存 的 好 处 ， 如 12.3.5 节 所 讨论 的 那样 ， 而 
且 不 需要 决定 当前 使 用 的 是 哪 种 形式 的 指针 。 

混 写 的 程序 控制 

在 某 些 应 用 中 ， 应 用 程序 员 可 能 会 知道 块 中 的 指针 是 否 被 跟踪 。 该 程序 员 可 显 式 地 指明 装 
载 进 内 存 的 块 中 指针 将 被 混 写 ， 也 可 以 只 在 需要 时 请 求 对 指针 进行 混 写 。 例 如 ， 如 果 程 序 员 知 
道 一 个 块 可 能 被 大 量 存 取 ， 如 B 树 ( 13.3 节 讨论 ) 中 的 根 块 ， 那 么 指针 将 被 混 写 。 但 是 ， 若 被 
装载 进 内 存 中 的 块 只 使 用 一 次 ， 然 后 就 从 内 存 中 删除 ， 则 它 不 被 混 写 。 

12.3.4 ” 块 返 回 磁 盘 

当 块 被 从 主 存 移 回 到 磁盘 中 时 ， 块 中 的 任何 指针 必须 解除 混 写 ;， 即 它们 的 内 存 地 址 必须 由 
相应 的 数据 库 地 址 取代 。 转 换 表 可 用 于 将 两 种 类 型 的 指针 进行 双向 联系 ， 因 此 从 原理 上 说 ， 给 
定 一 个 内 存 地 址 ， 可 以 找到 与 其 对 应 的 数据 库 地 址 。 

但 是 ,我 们 并 不 想 每 一 次 解除 混 写 时 均 需 搜索 整个 转换 表 。 虽 然 我 们 还 未 讨论 转换 表 的 实 
现 ， 但 是 我 们 可 以 想像 图 12-8 所 示 的 表 有 合适 的 索引 。 如 果 将 转换 表 想 像 为 一 个 关系 ， 则 寻找 
与 数据 库 地 址 xz 相 联系 的 内 存 地 址 的 问题 ， 可 表述 为 如 下 的 查询 ， 


SELECT memAddr 
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FROM TranslationTable 
WHERE dbAddr = x; 


例如 ， 使 用 数据 库 地 址 作为 码 的 散 列表 可 能 适用 于 在 abaAddr 属 性 上 建立 的 索引 ; 第 13 章 
提出 了 许多 可 以 采用 的 数据 结构 。 
如 果 我 们 想 支 持 反 向 查询 : 


SELECT dbAddx 
FROM TranslationTable 
WHERE memAddr = y; 


则 我 们 还 需要 在 属性 memAqdar 上 建立 索引 。 第 13 章 也 提出 适用 于 这 种 索引 的 数据 结构 。12.3.5 
节 还 讨论 了 链表 结构 ， 在 某 些 情况 下 ， 它 可 用 于 从 一 个 内 存 地 址 到 达 所 有 指向 它 的 指针 。 
12.35 被 固定 的 记录 和 块 

如 果 内 存 中 一 个 块 当前 不 能 安全 地 被 写 回 磁盘 ， 则 称 它 为 被 国定 的 。 块 首部 可 有 一 个 指明 
块 是 否 被 固定 的 二 进 制 位 。 块 可 能 被 固定 的 原因 有 很 多 ， 包 括 系 统 的 恢复 需要 ， 如 第 17 章 所 讨 
论 的 那样 。 指 针 混 写 是 为 什么 某 些 块 必 须 被 固定 的 一 个 重要 原因 。 

如 果 一 个 块 及 内 有 一 个 混 写 指针 ， 指 向 块 B, 中 的 某 一 数据 项 ， 那 么 在 将 块 B 移 回 磁盘 并 
重用 它 的 主 存 缓冲 区 时 ， 我 们 需 非常 小 心 。 原 因 是 ， 假 如 我 们 跟踪 B 中 的 指针 ， 它 将 把 我 们 
指引 到 缓冲 区 ， 但 缓冲 区 中 已 不 保存 B: 其实， 指针 已 成 为 悬挂 指针 。 因 此 一 个 像 B 那样 被 
其 他 地 方 的 混 写 指针 引用 的 块 是 固定 。 

当 我 们 将 块 写 回 磁盘 时 ， 不 仅 需 要 “解除 混 写 ”该 块 中 的 所 有 指针 ， 而 且 需 要 保证 它 没有 
被 固定 。 如 果 它 被 固定 ， 我 们 必须 要 么 使 它 不 被 固定 ， 要 么 让 它 继续 留 在 内 存 中 ， 占 用 本 可 用 
于 其 他 块 的 空间 。 为 了 一 个 由 于 存在 外 部 混 写 指针 而 被 固定 的 块 不 再 被 固定 ， 我 们 必须 “解除 
混 写 ”指向 它 的 所 有 指针 。 因 此 ， 对 每 一 个 有 数据 项 在 内 存 中 的 数据 库 地 址 ， 转 换 表 必须 记录 
指向 那个 数据 项 的 混 写 指针 内 存 中 的 位 置 。 两 种 可 采用 的 方法 是 : 

L 将 对 一 个 内 存 地 址 的 引用 列表 保存 为 与 在 转换 表 中 该 地 址 的 表 项 相关 的 链表 。 

2. 如 果 内 存 地 址 比 数据 库 地 址 短 得 多 ， 我 们 可 以 在 指针 自身 空间 中 创建 链表 。 即 每 一 个 用 
于 数据 库 指 针 的 空间 被 替换 为 : 

a) 被 混 写 的 指针 ; 和 
bd 另 一 个 指针 ， 它 是 被 混 写 的 指针 每 一 次 出 现 所 构成 的 链表 的 一 部 分 。 

图 12- 10 表 示 了 从 转换 表 中 数据 库 地 址 的 表 项 x 和 记 相 应 的 内 存 地 址 y 出 发 如 何 将 内 存 指 

针 y 的 每 一 次 出 现 链接 起 来 。 
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123.6 习题 
* 习题 12.3.1 如 果 我 们 为 Megatron 747 磁 盘 表 示 物 理 地 址 ， 给 每 一 个 柱 面 ， 柱 面 内 每 一 个 磁 


* 


* 


* 


道 ， 磁 道内 的 每 一 个 块 各 分 配 一 个 字 节 或 多 个 字 节 ， 则 需要 多 少 字 节 ? 对 每 一 个 磁道 内 块 
的 最 大 数 做 一 个 合理 的 假设 。 回 想 一 下 ，Megatron 747 的 扇面 /磁道 数 为 一 个 可 变 的 数目 。 
习题 12.3.2 为 习题 11.3.1 中 描述 的 Megatron 777 磁 盘 ， 重 做 习题 12.3.1。 

习题 12.3.3 ”如 果 我 们 希望 既 表 示 块 地 址 ， 又 表示 记录 地 址 ， 则 需要 额外 的 字 节 。 假 设 我 
们 需要 如 习题 12.3.1 所 示 的 一 个 Megatron 747 磁 盘 的 地 址 ， 如 果 

* a) 将 块 内 字 节 数 作 为 物理 地 址 的 一 部 分 ; 

b) 使 用 记录 的 结构 地 址 ， 假 设 被 存储 的 记录 有 4 字 节 整数 作为 码 ; 

则 我 们 需要 多 少 字 节 表示 记录 地 址 ? 

习题 12.3.4 ”现在 ， IP 地址 有 4 个 字 节 ,假设 一 个 全 球 范围 的 地 址 系统 中 的 块 地 址 由 主机 IP 
地 址 、1 ~ 1000 之 间 的 设备 号 以 及 各 个 设备 上 的 块 地 址 (假设 为 Megatron 747 磁 盘 ) 组 成 。 
块 地 址 需要 多 少 字 节 ? 
习题 12.3.5 ”将 来 ， IP 地址 将 使 用 16 个 字 节 。 另 外 ， 我 们 可 能 不 仅 需 要 访问 块 ， 还 需要 访 
间 记 录 ， 而 记录 可 能 在 块 内 任何 字 节 处 开始 。 但 是 ,设备 将 有 它们 自己 的 IP 地 址 ， 因 此 不 
需要 在 主机 内 表示 设备 ， 而 在 习题 12.3.4 中 我 们 认为 这 是 必要 的 。 仍 假设 设备 为 Megatron 
747 磁 盘 ， 在 这 种 情况 下 ， 地 进 的 表示 需要 多 少 字 节 ? 
习题 12.3.6 假设 我 们 希望 逻辑 地 表示 Megatron 747 磁 盘 上 的 块 地 址 ， 即 使 用 k 字 节 (为 菜 
TE) 的 标识 符 。 我 们 还 需要 在 磁盘 上 存储 一 个 映射 表 ， 如 图 12-6 所 示 的 那样 ， 它 由 逻辑 
地 址 和 物理 地 址 对 组 成 。 用 于 映射 表 的 块 不 是 数据 库 的 一 部 分 ， 因 此 在 映射 表 中 没有 这 些 
块 的 逻辑 地 址 。 假 设 物 理 地 址 使 用 物理 地 址 所 能 使 用 的 最 少 字 节 数 ( 如 习题 12.3.1 计 算 的 
那样 )， 逮 辑 地 址 使 用 逻辑 地 址 所 能 使 用 的 最 小 字 节 数 ， 磁 盘 的 映射 表 占 用 多 少 个 4096 字 
节 的 块 ? 
习题 12.3.7 假设 我 们 有 4096 字 节 块 ， 块 中 存储 100 字 节 长 的 记录 。 块 首部 由 一 个 偏 移 量 表 
组 成 ， 如 图 12-7 所 示 ， 它 使 用 2 字 节 长 的 指针 指向 块 内 记录 。 通 常 ， 每 天 向 每 一 块 插入 两 
条 记录 ， 删 除 一 条 记录 。 删 除 记录 必须 使 用 一 个 “删除 标记 ”代替 它 的 指针 ， 因 为 可 能 会 
悬 挂 指针 指向 它 。 更 明确 地 说 ， 假 设 任何 一 天 删除 记录 总 发 生 在 插入 之 前 。 如 果 刚 开始 
时 块 是 空 的 ， 多 少 天 之 后 ， 不 再 有 插入 记录 的 空间 ? 

习题 12.3.8 假设 每 天 平均 插入 1.1 条 记录 ， 删 除 一 条 记录 ， 重 做 习题 12.3.7。 

习题 12.3.9 ”假设 不 删除 记录 ， 而 是 将 它们 移 到 另 一 个 块 ， 且 必须 在 它们 的 偏 移 量 表 的 表 
项 中 提供 一 个 8 字 节 的 “转向 ”地 址 ， 若 

! a) 给 所 有 的 偏 移 量 表 的 表 项 分 配 一 个 表 项 所 需要 的 最 大 字 节 数 。 

!! b) 允许 偏 移 量 表 的 表 项 长 度 发 生变 化 ， 但 可 正确 地 找到 和 解释 所 有 的 表 项 。 
分 别 重 做 习题 12.3.7。 

习题 12.3.10 ”假设 我 们 自动 混 写 所 有 指针 ， 所 用 的 总 时 间 是 单独 混 写 每 一 个 指针 所 用 总 
时 间 的 一 半 。 如 果 主 存 中 一 个 指针 被 至 少 跟踪 一 次 的 概率 为 p，p 为 何 值 时 自动 混 写 比 按 
需 混 写 更 有 效 ? 
习题 12.3.11 对 习题 12.3.10 进 行 推广 ， 将 从 不 混 写 指针 的 可 能 性 包括 进来 。 假 设 几 个 重要 
动作 占用 以 下 时 间 ( 以 某 个 时 间 单 位 计 ): 

a) 指针 按 需 混 写 ; 30。 
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b) 指针 自动 混 写 : 20/ 每 个 指针 。 

c) 跟踪 一 个 混 写 指 针 : 1。 

d) 跟踪 一 个 未 混 写 指针 : 10。 
假设 内 存 中 的 指针 要 么 不 被 跟踪 ( 概率 为 1 -p), SARREN ARAP), k 和 p 为 何 值 
时 ， 不 混 写 、 自 动 混 写 和 按 需 混 写 各 自 都 能 提供 最 好 的 平均 性 能 ? 


12.4 变 长 数据 和 记录 


到 目前 为 止 ， 我 们 一 直 简单 地 假设 每 个 数据 项 有 固定 长 度 ， 记 录 有 固定 模式 ， 且 模式 是 定 
长 字段 的 列表 。 但 是 ， 实 际 情况 很 少 会 这 么 简单 。 我 们 可 能 希望 表示 : 

1. 大 小 变化 的 数据 项 。 例 如 ， 在 图 12-1 中 ， 我 们 考虑 了 一 个 关系 Moviestar， 它 的 地 址 
字段 最 大 可 为 255 字 节 。 虽 然 有 些 地 址 可 能 有 那么 长 ， 但 绝 大 多 数 地 址 可 能 为 50 个 字 节 甚至 更 
少 。 如 果 我 们 只 为 地 址 分 配 它 所 需 的 实际 空间 ， 则 可 能 节省 存储 Moviestar 元 组 所 用 空间 的 
一 半 以 上 。 

2. 重复 字段 。 如 果 我 们 试图 在 表示 对 象 的 记录 中 描述 多 对 多 关系 ， 就 必须 存储 与 给 定 对 象 
所 关联 的 所 有 对 象 的 引用 。 

3. 可 变 格 式 记 录 。 有 时 ， 我 们 事先 不 知道 记录 的 字段 是 什么 ， 或 每 一 个 字段 出 现 多 少 次 。 
例如 ， 一 些 电 影 明星 也 执导 影片 ， 我 们 可 能 想 给 他 们 的 记录 添加 字段 ， 指 明 他 们 执导 的 电影 。 
同样 ， 一 些 影星 出 品 电影 ， 或 以 其 他 方式 参加 ， 而 我 们 也 可 能 希望 把 这 样 的 信息 放 人 他 们 的 记 
录 。 但 是 ， 因 为 大 多 数 影星 既 不 是 出 品 人 也 不 是 导演 ， 我 们 不 想 在 每 个 影星 的 记录 中 都 为 这 
种 信息 预 留 空间 。 

4. 极 大 的 字段 。 现 代 DBMS 支 持 属性 值 为 非常 大 的 数据 项 的 属性 。 例如， 我 们 可 能 想 在 电 
影 明星 记录 中 定义 一 个 picture 属 性 ， 它 是 明星 的 一 幅 GIF 图 像 。 一 个 电影 记录 可 能 有 一 个 字 
段 ， 它 是 电影 的 MPEG 编 码 ， 大 小 为 GB， 还 有 更 多 的 普通 字段 ， 如 电影 标题 。 这 些 字段 如 此 
之 大 ， 以 致 与 我 们 的 记录 能 存储 在 一 个 块 内 的 直觉 相 矛 盾 。 

12.4.1 具有 变 长 字段 的 记录 | 

如 果 记 录 的 一 个 或 多 个 字段 是 变 长 的 ， 则 记录 必须 包含 足够 多 的 信息 以 便 我 们 能 找到 记录 
的 任何 字段 。 一 个 简单 而 有 效 的 模式 是 将 所 有 定 长 字段 放 在 变 长 字段 之 前 。 我 们 在 记录 首部 写 
和 以 下 信息 : 






指向 address 
性 别 










i- birthdate : name : address 


图 12-11 一 个 Moviestar 记录 ， 其 name 和 address 作为 变 长 字符 串 实 现 


1. 记录 长 度 。 

2. 指向 所 有 变 长 字段 起 始 处 〈 即 偏 移 量 ) 的 指针 ， 然 而 ， 如 果 变 长 字段 总 是 以 同样 的 顺序 
出 现 , 则 第 一 个 变 长 字段 不 需要 指针 ; 我 们 知道 它 就 紧 跟 在 定 长 字段 之 后 。 

例 12.8 ”假设 我 们 有 电影 明星 的 记录 ， 其 字段 为 姓名 、 住 址 、 性 别 和 出 生日 期 。 假 设 性 别 
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和 出 生日 期 为 定 长 字段 ， 各 占 4 和 12 个 字 节 。 但 是 ， 姓 名 和 住址 将 由 具有 任意 合适 长 度 的 字符 
串 表示 。 从 图 12-11 可 以 看 到 一 个 典型 的 影星 记录 。 我 们 总 是 将 姓名 放 在 住址 前 面 ， 因 此 不 需 
要 有 指针 指向 姓名 的 起 始 处 ; 那个 字段 总 是 紧 跟 在 记录 的 定 长 部 分 之 后 。 口 


12.4.2 具有 重复 字段 的 记录 

如 果 定 长 字段 F 出 现 的 次 数 可 变 ， 类 似 的 情况 也 会 发 生 。 将 字段 F 的 每 次 出 现 放 在 一 起 ， 
在 记录 首部 放 一 个 指针 ， 让 它 指 向 字段 F 出 现 的 第 一 个 位 置 ， 这 就 是 够 了 。 我 们 可 用 以 下 方法 
找到 字段 F 出 现 的 所 有 位 置 。 令 字段 F 的 一 次 出 现 占 用 的 字 节 数 为 L， 然 后 在 字段 F 的 偏 移 量 上 
加 上 芍 所 有 整数 倍数 ， 从 0 开始 而 后 L、2L、3L， 依 此 类 推 。 最 后 ,我们 到 达 F 后 面 的 字段 的 
人 篇 移 量 ， 至 此 停止 。 
O 9129 ”假设 我 们 重新 设计 电影 明星 记录 ， 只 存储 姓名 、 地 址 ( 为 变 长 字符 串 ) 和 指向 明 
星 主演 的 影片 的 指针 。 图 12-12 给 出 了 这 种 记录 类 型 是 如 何 被 表示 的 。 首 部 包含 指向 地 址 字段 
起 始 处 的 指针 (我 们 假设 姓名 字段 总 是 恰好 在 首部 之 后 开始 ) 和 指向 第 一 个 电影 指针 的 指针 。 记 
录 长 度 告诉 我 们 有 多 少 电影 指针 。 口 


其 他 的 首部 信息 





指向 影片 的 指针 
图 12-12 具有 对 电影 的 一 组 重复 引用 的 记录 


另 一 种 表示 方法 是 保持 记录 定 长 ， 而 将 变 长 部 分 (无 论 它 是 变 长 字段 ， 还 是 重复 次 数 不 确 
定 的 字段 ) 放 在 另 一 个 块 上 。 在 记录 本 身 中 我 们 存储 
1. 指向 每 一 个 重复 字段 开始 处 的 指针 ; 和 
2. 重复 次 数 或 者 重复 结束 处 。 
图 12-13 表 示例 12.9 中 的 问题 的 记录 格式 ， 但 其 变 长 字段 name 和 addqress 以 及 重复 字段 
starredIn (影片 引用 集 ) 存储 在 另外 的 一 个 或 多 个 块 上 。 
为 记录 的 变 长 部 分 使 用 间接 既 有 好 处 ， 也 有 缺点 : 
“ 保持 记录 定 长 。 可 以 更 有 效 地 对 记录 进行 搜索 ， 使 块 首部 的 开销 最 少 ， 记 录 能 很 容易 地 
在 块 内 或 块 间 移 动 。 
*。 男 一 方面 ， 将 变 长 部 分 存储 在 另 一 个 块 中 增加 了 为 检查 一 条 记录 的 所 有 部 分 而 进行 的 磁 
盘 IO 数目 。 
一 种 折 中 方案 是 在 记录 的 定 长 部 分 保留 足够 的 空间 ， 以 存储 以 下 信息 : 
1. 重复 字段 合理 的 出 现 次 数 。 
2. 指向 可 以 找到 这 个 重复 字段 其 他 出 现 的 地 方 的 指针 。 
3. 其 他 出 现 的 次 数 。 
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如 果 所 需 空间 小 于 预 留 空间 ， 则 一 些 空间 可 能 会 无 用 。 如 果 信 息 不 能 放 人 定 长 部 分 ， 则 指 
向 附加 空间 的 指针 将 是 非 空 的 ， 且 我 们 能 通过 跟踪 这 个 指针 找到 重复 字段 另外 的 出 现 。 592 


记录 首部 信息 

指向 name 

name 的 长 度 

指向 address 
address 的 长 度 

指向 影片 的 指针 
指向 数目 











附加 的 空间 
图 12-13 将 变 长 字段 与 记录 分 开 存储 






空 值 的 表示 

元 组 经 常 有 可 为 NULL 的 字段 。 图 12-11 所 示 的 记录 格式 提供 了 一 种 通常 使 用 的 表示 
NULL 值 的 方法 。 如 果 像 address 这 样 一 个 字段 为 空 ， 则 我 们 在 指向 一 个 地 址 的 指针 空间 
处 放 一 个 空 指针 。 这 样 ， 除 地 址 指针 外 ， 我 们 不 需要 为 地 址 分 配 空间 。 这 种 方式 平均 来 
说 能 节省 空间 ， 甚 至 在 address 为 定 长 字段 但 经 常 为 NULEL 值 时 也 如 此 。 


12.4.3 可 变 格式 记录 
如 果 记 录 没 有 固定 的 模式 ， 情 况 会 更 复杂 。 所 谓 记 录 没 有 固定 的 模式 ， 指 字段 或 字段 顺序 
不 是 完全 由 记录 所 表示 元 组 或 对 象 的 关系 或 类 决定 。 变 格式 记录 最 简单 的 表示 是 标记 字段 序 列 ， 
每 一 个 标记 字段 包含 以 下 内 容 : 
1. 关于 这 个 字段 角色 的 信息 ， 如 : 
(a) 属性 或 字段 名 ; 
(b) 字段 类 型 ， 如 果 它 不 能 从 字段 名 和 一 些 可 用 的 模式 信息 中 明显 推 知 ， 以 及 
(c) 字段 长 度 ， 如 果 它 不 能 从 类 型 明显 推 知 。 
2. 字段 值 。 
至 少 有 两 个 原因 可 以 说 明 为 什么 标记 字段 有 用 : 
1. 信息 集成 应 用 。 有 时 ,一 个 关系 是 根据 以 前 的 几 个 数据 源 创 建 的 ， 而 这 些 数据 源 有 不 同 
种 类 的 信息 ; 参见 20.1 节 中 的 讨论 。 例 如 ， 影 片 明星 信息 可 来 自 几 个 数据 源 ， 一 个 数据 源 记载 
”出 生日 期 ， 而 其 他 几 个 不 记载 ; 一 些 数据 源 提供 地 址 ， 而 其 他 不 提供 ， 等 等 。 如 果 字 段 数 不 是 
很 多 ,我 们 最 好 给 未 知 字 段 值 赋 NULL。 但 是 如 果 数 据 源 很 多 ,信息 种 类 很 多 ， 则 可 能 会 有 太 [593] 
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多 的 NULL。 然 而 ， 如 果 我 们 使 用 标识 ， 只 列 出 非 空 字段 ， 则 可 节省 相当 大 的 空间 。 

2. 具有 非常 灵活 的 模式 的 记录 。 一 条 记录 的 许多 字段 会 重复 或 根本 不 出 现 ， 那 么 即使 我 们 
知道 模式 ， 标 识字 段 也 可 能 是 有 用 的 。 例 如 ， 医 疗 记录 可 能 包含 许多 有 关 检 验 的 信息 ， 但 是 可 
做 的 检验 数 以 于 计 ， 而 每 一 个 病人 只 有 较 少 的 检验 结果 。 

例 12.10 ”假设 一 些 电影 明星 有 诸如 执导 的 影片 、 前 配偶 、 所 拥有 的 餐馆 和 许多 其 他 的 国 
定 但 不 常用 的 信息 。 在 图 12-14 中 ， 我 们 看 到 一 个 使 用 标记 字段 的 假想 的 电影 明星 记录 的 开头 。 
我 们 假设 各 种 可 能 的 名 称 和 类 型 都 使 用 单字 节 编 码 。 图 12-14 指 出 了 所 显示 的 两 个 字段 的 长 度 
及 其 合适 的 编码 ， 这 两 个 字段 资 巧 都 是 字符 串 类 型 。 口 


name 的 编码 所 拥有 和 餐馆 的 编码 
字符 串 类 型 的 编码 字符 串 类 型 的 编码 
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图 12-14 一 个 具有 标记 字段 的 记录 


12.4.4 不 能 装 入 一 个 块 中 的 记录 

下 面 ,我 们 将 讨论 另 一 个 问题 。 这 个 问题 的 重要 性 越 来 越 大 ， 因 为 DBMS 更 经 常 地 用 于 管 
理 大 值 数 据 类 型 ， 这 是 一 些 通 常 不 能 装 人 一 个 块 中 的 值 。 典 型 的 例子 是 视频 或 音频 “片段 ”。 
这 些 大 值 经 常 是 变 长 的 ， 但 即使 这 种 类 型 的 的 属性 值 是 定 长 的 ， 我 们 也 需要 使 用 一 些 特 殊 技术 
来 表示 它们 。 本 节 中 我 们 将 考虑 一 种 称 做 “ 跨 块 记录 ”的 技术 ， 它 用 于 管理 比 块 大 的 记录 。 对 
非常 大 的 值 ( 兆 字 节 或 吉 字 节 ) 的 管理 在 12.4.5 节 讨论 。 

当 记 录 比 抉 小 , 但 是 将 整 条 记录 装 人 块 中 将 浪费 大 量 空间 时 ， 跨 块 记录 也 是 有 用 的 。 例 如 ， 
例 12.6 中 ， 空 间 仅 浪 费 7%。 但 如 果 记 录 只 是 比 块 的 一 半 稍 大 ， 则 浪费 率 接近 50%， 原 因 是 这 时 
我 们 在 一 个 块 中 只 能 装 一 条 记录 。 

因为 这 两 个 原因 ， 我 们 有 时 希望 将 记录 分 开 ， 存 储 在 两 个 或 多 个 块 中 。 出 现在 一 个 块 中 的 
记录 的 一 部 分 被 称 为 记录 片段 。 一 个 具有 两 个 或 多 个 片段 的 记录 被 称 为 是 跨 决 的 ， 而 不 跨越 块 
边界 的 记录 是 不 跨 块 的 。 

如 果 记 录 能 跨 块 ， 则 每 一 条 记录 和 和 记录 片段 需要 一 些 另外 的 首部 信息 : 

1. 每 一 条 记录 或 片段 首部 必须 包含 一 个 二 进 制 位 ， 指 明 它 是 否 为 一 个 片段 。 

2. 如 果 它 是 一 个 片段 ， 则 它 需 要 几 个 二 进 制 位 ， 指 明 它 是 否 为 它 所 属 的 记录 的 第 一 个 或 最 
后 一 个 片段 。 

3. 如 果 对 同一 条 记录 有 下 一 个 和 /或 前 一 个 片段 ， 则 片段 需要 指向 这 样 一 些 其 他 片段 的 指针 。 

例 12.11 图 12-15 表 示 如 何 将 3 个 大 约 为 块 的 60% 大 小 的 记录 存储 在 两 个 块 中 。 记 录 片 段 2a 


块 首部 
记录 首部 
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的 首部 包含 一 个 指明 它 是 片段 的 标记 ,一 个 指明 它 是 记录 的 第 一 个 片段 的 标记 和 一 个 指向 下 一 
个 片段 25 的 指针 。 同 样 ，2b 首 部 指明 它 是 记录 的 最 后 一 个 片段 ， 且 有 一 个 指向 前 一 个 片段 24 的 
反 向 指针 。 口 


12.4.5 BLOBS 
现在 ,我 们 考虑 真正 大 的 记录 值 或 记录 字段 值 的 表示 。 常 见 的 例子 包括 各 种 格式 的 图 像 
(如 GIF 或 JEG )， 格 式 为 MPEG 等 的 电影 ， 或 各 种 信和 号: 声音 、 雷 达 等 。 这 样 的 值 经 常 被 叫做 
二 进 制 大 对 象 或 BLOB。 当 一 个 字段 的 值 为 BLOB 时 ， 我 们 必须 重新 考虑 至 少 两 件 事情 。 
BLOB 的 存储 
BLOB 必 须 存 储 在 一 系列 块 中 ， 我 们 总 是 希望 这 些 块 在 磁盘 的 一 个 或 多 个 柱 面 上 顺序 分 配 ， 
这 样 就 能 有 效 地 检索 BLOB。 但 是 也 有 可 能 将 BLOB 存 储 在 块 的 链表 中 。 
男 外， 可 能 需要 对 BLOB 进 行 很 快 地 检索 (如 必须 实时 播放 一 部 电影 )， 以 致 如 将 其 存储 在 
一 个 磁盘 上 会 使 我 们 不 能 对 其 进行 足够 快 的 检索 。 那 么 ， 有 必要 将 BLOB 进 行 分 割 ， 存 储 在 几 
个 磁盘 中 ， 即 在 这 些 磁盘 上 交替 存储 BLOB 的 块 。 这 样 就 可 以 同时 检索 BLOB 的 几 个 块 ， 检索 
效率 提高 的 倍数 大 约 等 于 参与 分 割 的 磁盘 数 。 
BLOB 的 检索 
我 们 假设 当 客户 端 需要 记录 时 ， 包 含 那 条 记录 的 块 全 部 从 数据 库 服 务 器 传 到 客户 端 ， 这 一 
假设 可 能 不 再 成 立 。 我 们 可 能 只 想 传送 记录 的 “小 ”字段 ， 同 时 允许 客户 端 一 次 一 个 地 请 求 
BLOB 的 块 ， 而 与 记录 的 其 余部 分 无 关 。 例 如 ， 如 果 BLOB 是 一 部 两 小 时 的 电影 旦 客户 端 请 求 
播放 这 部 影片 ， 那 么 可 以 一 次 向 客户 端 传送 电影 的 几 块 ， 其 速率 正好 是 播放 电影 必须 的 速率 。 
在 许多 应 用 中 ， 客 户 端 能 请 求 BLOB 内 的 部 分 ， 而 不 必 接 收 整个 BLOB ， 这 也 很 重要 。 例 
如 ， 有 一 个 请 求 要 观看 一 部 电影 的 第 45 分 钟 ， 或 一 个 音频 片段 的 结束 部 分 。 如 果 DBMS 要 支持 
这 些 操作 ， 那 么 它 需要 合适 的 索引 结构 ， 例 如 ， 在 一 个 电影 BLOB 上 通过 秒 进 行 索 引 。 
12.4.6 习题 | 
* 习题 12.4.1 一 个 病人 记录 包含 以 下 定 长 字段 : 病人 的 出 生日 期 、 社 会 保险 号 码 和 病人 ID， 
每 一 个 字段 都 是 10 字 节 长 。 它 还 有 下 列 变 长 字段 : 姓名 、 住 址 和 病史 。 如 果 记 录 内 一 个 指 
针 需 要 4 个 字 节 ， 记 录 长 度 是 一 个 4 字 节 整数 ， 不 包括 变 长 字段 空间 ， 这 条 记录 需要 多 少 
字 节 ? 可 以 假设 不 需要 对 字段 进行 对 齐 。 
* 习题 12.4.2 ”假设 使 用 习题 12.4.1 的 记录 。 变 长 字段 姓名 、 住 址 和 病史 的 长 度 都 符合 均匀 
分 布 。 对 姓名 来 说 ， 其 范围 为 10 ~ 50 个 字 节 ; 对 住址 来 说 ， 其 范围 是 20 ~ 80 个 字 节 ; 对 病 
史 来 说 ， 范 围 是 0 ~ 1000 字 节 。 一 个 病人 记录 的 平均 长 度 是 多 少 ? 
习题 12.4.3 假设 在 习题 12.4.1 的 病人 记录 上 添加 另外 的 可 重复 字段 ， 表 示 胆 固 醇 化 验 ， 每 
一 次 胆固醇 化 验 需要 一 个 16 字 节 的 日 期 和 化 验 的 整数 结果 。 如 果 
a) 重复 化 验 保 存在 记录 中 。 
b) 化 验 存储 在 另外 一 个 块 中 ， 记 录 中 存储 指向 化 验 的 指针 。 
分 别 指 出 病人 记录 的 格式 。 
习题 12.4.4 假设 在 习题 12.4.1 的 病人 记录 上 ， 我 们 添加 用 于 检验 及 检验 结果 的 字段 。 每 个 
检验 包括 检验 名 、 日 期 和 检验 结果 。 假 设 每 一 个 这 样 的 检验 需要 40 个 字 节 。 还 假设 对 每 一 
个 病人 和 每 一 次 检验 ， 存 储 检验 结果 的 概率 为 p。 
a) 假设 指针 和 整数 都 需要 4 个 字 节 ， 所 有 检验 结果 都 作为 变 长 字段 存储 在 记录 内 ， 在 
病人 记录 中 ， 检 验 结 果 平 均 需 要 多 少 字 节 ? 
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b 如 果 检 验 结果 字段 存储 在 其 他 地 方 ， 而 记录 内 有 指向 检验 结果 字段 的 指针 表示 检验 

结果 ， 重 作 (a)。 

! O 假设 我 们 使 用 混合 模式 ,次 检验 结果 存储 在 记录 内 ， 另 外 的 检验 结果 存储 在 另 一 
块 (或 块 链 中 ) 中 。 这 些 另外 的 检验 结果 可 通过 跟踪 指向 存储 它们 的 块 (或 块 链 ) 
的 指针 而 被 找到 。 作 为 p 的 函数 ， 当 /为 何 值 时 ， 用 于 存储 检验 结果 的 空间 最 小 ? 

! d 重复 的 检验 结果 字段 所 用 的 空间 总 量 不 是 惟一 问题 。 假 设 我 们 想 最 小 化 的 一 个 重要 
指标 是 所 使 用 的 字 节 数 。 如 果 我 们 必须 将 一 些 结果 存储 在 另 一 块 中 ， 从 而 对 许多 我 
们 必须 进行 的 检验 结果 的 存 取 需 要 一 次 磁盘 IO， 则 加 上 10 000 的 损失 。 在 这 种 假 
RTF, ME ApH BM, HRB >? 

*ll 习题 12.4.5 ”假设 块 有 1000 个 字 节 可 用 于 存储 记录 ， 我 们 希望 在 块 上 存储 长 度 为 ?的 定 长 记 
录 ， 其 中 500< r 1000。r 的 值 包括 记录 首部 ， 但 是 一 个 记录 片段 需要 另外 的 16 个 字 节 用 
做 片段 首部 。7 为 何 值 时 ， 我 们 能 通过 跨 块 记录 提高 空间 使 用 率 ? 

.习题 12.4.6 ”回想 一 下 例 11.5。 一 部 MPEG 影 片 每 小 时 的 播放 大 约 使 用 1 吉 字 节 。 如 果 我 们 
能 以 最 好 的 方式 在 一 个 Megatron 747 磁 盘 上 安排 MPEG 影 片 的 块 ， 且 磁盘 延 时 极 短 ( 10088 
秒 )， 从 一 个 磁盘 能 传送 几 部 影片 ? 


12.5 记录 的 修改 


记录 的 插入 、 删 除 和 更 新 经 常 产生 某 些 特别 的 问题 。 尽 管 当 记录 改变 长 度 时 ， 这 些 问 题 尤 
为 严重 , 但 即使 记录 和 字段 都 是 定 长 的 ， 也 会 出 现 这 些 问 题 。 

12.5.1 插入 

首先 ,我们 考虑 将 一 条 新 记录 插入 到 一 个 关系 中 或 等 价 地 插入 到 类 的 当前 外 延 中 )。 如 
果 关 系 的 记录 没有 特定 的 存储 顺序 ， 则 我 们 只 需 找到 一 些 有 空闲 空间 的 块 ， 或 当 块 没有 空闲 空 
间 时 就 找 一 个 新 块 ， 然 后 将 记录 放 在 那里 。 通 常 有 一 些 用 以 找到 存储 某 个 给 定 关系 的 元 组 或 类 
对 象 的 所 有 块 的 机 制 ， 但 我 们 将 如 何 找 到 这 些 块 的 问题 放 到 13.1 节 讨论 。 

若 元 组 必须 以 某 个 固定 次 序 存储 ， 如 按 主键 顺序 存储 ， 则 会 有 更 多 的 问题 。 保 持 记 录 有 序 
性 是 有 充分 原因 的 ， 因 为 它 便于 回答 某 些 查询 ， 正 如 我 们 将 在 13.1 节 中 要 看 到 的 那样 。 如 果 我 
们 要 插入 一 个 新 记录 , 首先 要 找到 那 条 记录 应 放置 的 块 。 此 块 可 能 凑巧 有 空间 存放 这 条 新 记录 。 
因为 记录 必须 保持 有 序 ， 我们 可 能 不 得 不 在 块 中 滑动 记录 以 在 合适 的 地 点 得 到 所 需 的 空间 。 

如 果 需 要 滑动 记录 ， 则 图 12-7 所 示 的 抉 组 织 是 很 有 用 的 ， 这 里 我 们 把 它 再 现在 图 12-16 中 。 
回想 在 12.3.2 节 中 的 讨论 , 我 们 可 以 在 每 一 个 块 的 首部 创建 一 个 “ 偏 移 量 表 ”， 其 中 指针 指向 块 
中 每 一 记录 的 位 置 。 从 块 的 外 部 指向 记录 的 指针 是 一 个 “结构 地 址 "， 即 块 地 址 和 偏 移 量 表 中 
该 记录 表 项 的 位 置 。 

aP 
ER 
— 首部 一 > 一 一 未 使 用 的 空间 一 > 
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图 12-16 偏 移 量 表 让 我 们 在 块 中 滑动 记录 以 便 为 新 记录 腾 出 空间 
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如 果 能 在 当前 块 中 为 插 人 记录 找到 空间 ， 则 我 们 只 是 简单 地 在 块 中 滑动 记录 ， 调 整 偏 移 量 
表 中 的 表 项 。 新 记录 被 插 人 到 块 中 ， 在 此 块 的 偏 移 量 表 中 添加 指向 此 记录 的 新 指针 。 

但 是 ， 块 中 可 能 没有 空间 用 于 新 记录 的 存储 ， 在 这 种 情况 下 ， 我 们 不 得 不 在 此 块 之 外 寻找 
到 空间 。 解 决 这 个 问题 主要 有 两 种 方法 ， 这 两 种 方法 也 可 以 结合 使 用 。 

1. 在 “邻近 块 ” 中 找 空间 。 例 如 ， 若 块 Bi 没有 空间 供需 要 以 有 序 方式 插入 该 块 中 的 记录 所 
用 ， 则 在 块 的 有 序 排列 中 找到 下 一 个 块 B2。 如 果 B, 有 空间 ， 将 B1 的 最 高 记录 移 到 B,， 并 移动 两 
块 中 的 记录 。 但 是 ， 如 果 有 外 部 指针 指向 记录 ， 则 我 们 必须 小 心 ， 要 在 B, 的 偏 移 量 表 中 留 下 一 
个 转发 地 址 (forwarding address )， 说 明 某 一 记录 被 移 到 Bs 以 及 它 的 表 项 在 B, 的 偏 移 量 表 中 哪 
个 地 方 。 允 许 使 用 转发 地 址 通常 会 增加 偏 移 量 表 表 项 所 需 空间 的 总 量 。 

2. 创建 一 个 溢出 块 。 在 这 种 模式 下 ， 每 个 块 3 的 首部 有 一 个 位 置 ， 这 个 位 置 存 放 一 个 指向 


溢出 据 的 指针 ， 理 论 上 属于 8 的 多 余 的 记录 放 信 
溢出 决 中 。5 的 溢出 块 可 以 指向 第 一 个 浴 出 块 ， | FT RP 
依 此 类 推 。 图 12-17 指 明了 这 种 情况 。 RATED 


出 块 的 指针 表示 为 块 上 的 小 块 ， 尽 管 实际 上 它 RB 块 8 的 溢出 块 
是 块 首 部 的 一 部 分 。 图 12-17 块 及 其 第 一 个 溢出 块 
12.5.2 删除 l 





在 删除 记录 时 ， 可 以 回收 记录 空间 。 如 果 使 用 图 12-16 所 示 的 偏 移 量 表 ， 且 记录 可 以 在 块 
内 滑动 ， 则 我 们 能 让 块 中 空间 紧凑 ， 以 使 块 中 间 总 有 一 个 未 用 的 区 域 ， 如 该 图 所 示 。 

如 不 能 滑动 记录 ， 则 需要 在 块 首 部 维护 一 个 可 用 空间 列表 。 当 向 块 中 插入 一 条 新 记录 时 ， 
我 们 知道 可 用 区 域 在 哪里 ， 它 有 多 大 。 注 意 ， 块 首部 通常 不 必 存 储 全 部 可 用 空间 列表 ， 只 把 链 
头 放 于 块 首部 就 足够 了 ， 然 后 使 用 可 用 区 域 自身 存储 列表 中 的 链接 ， 与 图 12-10 很 相似 。 

当 删 除 记录 时 ， 我 们 或 许 能 够 去 除 溢出 块 。 如 果 记 录 从 块 3 中 或 从 溢出 链 的 任 一 块 中 删除 ， 
我 们 可 以 考虑 那 条 块 链 的 所 有 块 中 已 用 空间 总 量 。 如 果 记 录 能 被 较 少 的 块 容 纳 ， 且 能 安全 地 在 
被 链接 的 块 之 间 移 动 记录 ， 则 可 对 整个 链 进 行 重新 组 织 。 ”i 

但 是 在 删除 记录 时 ， 还 有 另外 一 个 复杂 的 因素 ， 无 论 使 用 何 种 模式 重新 组 织 块 ， 我 们 都 必 
须 记 住 它 。 如 果 有 指向 被 删除 记录 的 指针 ， 而 我 们 不 想 让 这 些 指针 成 为 悬挂 指针 或 指向 放 于 被 
删除 记录 地 址 处 的 新 记录 ， 通 常 采用 的 方法 是 在 记录 处 放 一 个 删除 标志 ， 我 们 在 12.3.2 节 已 指 
出 了 这 种 方法 。 这 个 删除 标记 是 永久 的 ; 它 必须 一 直 保留 ， 直 到 对 整个 数据 库 进 行 重 构 。 

删除 标记 放 在 何 处 依赖 于 记录 指针 的 特征 。 如 果 指 针 都 指向 固定 的 位 置 ， 在 这 些 固定 位 置 
可 以 找到 记录 的 位 置 ， 则 我 们 可 将 删除 标记 放 在 该 固定 位 置 。 这 里 是 两 个 例子 ， 

1. 在 12.3.2 节 我 们 指出 ， 如 果 使 用 图 12-16 的 偏 移 量 表 模 式 ， 则 删除 标记 可 以 是 偏 移 量 表 中 
的 空 指针 ， 因 为 指向 记录 的 指针 实际 上 是 指向 偏 移 量 表 表 项 的 指针 。 

2. 如 果 使 用 图 12-6 所 示 的 映射 表 将 逻辑 地 址 转换 为 物理 地 址 ， 则 删除 标记 可 以 是 在 物理 地 
址 处 的 空 指针 。 

如 果 我 们 需要 用 删除 标记 代替 记录 ， 明 智 的 做 法 是 将 记录 首部 起 始 处 的 一 个 二 进 制 位 用 作 
删除 标记 ; 即 如 果 记 录 没 被 删除 ， 则 这 个 二 进 制 位 为 0; 若 它 为 !， 则 意味 着 记录 已 被 删除 。 只 
有 记录 起 始 处 的 这 个 二 进 制 位 必须 保留 , 而 以 后 的 字 节 可 为 男 一 条 记录 重用 , 如 图 12-18 所 示 2 


O 但 是 ，12.2.1 节 讨论 的 字段 对 齐 问题 可 能 迫使 我 们 留 下 4 个 或 更 多 字 节 不 用 。 
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当 我 们 跟踪 指针 到 一 个 被 删除 的 记录 时 ， 我 们 明白 的 第 一 件 事 是 “删除 标记 ”位 告诉 我 们 记录 
已 被 删除 ， 然 后 我 们 就 知道 不 要 再 看 下 面 的 字 节 了 。 





图 12-18 记录 1 可 被 替代 ， 但 是 删除 标记 保留 ; 记录 2 没有 删除 标记 ， 
可 以 通过 跟踪 指向 它 的 指针 而 看 到 它 


12.5.3 更 新 
当 一 个 定 长 记录 被 更 新 (update) 时 ， 对 存储 系统 没有 影响 ， 因 为 我 们 知道 它 占用 与 更 新 前 
完全 相同 的 空间 。 但 是 当 一 个 变 长 记录 被 修改 时 ， 我 们 就 会 碰 到 与 插 人 和 删除 有 关 的 所 有 问 
题 ， 只 不 过 永远 都 不 需要 为 记录 的 旧版 本 创建 删除 标记 。 
如 果 更 新 后 的 记录 比 其 旧版 本 长 ， 则 我 们 可 能 需要 在 它 所 在 的 块 中 创建 更 多 的 空间 。 这 个 
过 程 可 能 涉及 记录 的 滑动 ， 有 时 甚至 要 创建 一 个 溢出 块 。 如 果 记录 的 变 长 部 分 存储 在 另 一 个 块 
中 ,如 图 12-13 所 示 ， 则 我 们 可 能 需要 在 那个 块 中 移动 元 素 ， 或 创建 一 个 新 块 用 于 存储 变 长 字段 。 
反 过 来 ， 如 果 记 录 由 于 更 新 而 变 短 ， 我 们 可 以 像 删 除 记录 时 那样 恢复 、 合 并 空间 或 去 除 溢出 块 。 
125.4 习题 
习题 12.5.1 ”假设 我 们 将 记录 块 通过 它们 的 排序 键 字段 排序 ， 并 在 块 之 间 按 序 分 割 。 每 个 
块 有 一 个 可 从 外 部 获知 的 排序 键 范围 (13.1.3 节 中 的 稀 朴 索引 结构 正 是 这 种 情况 的 一 个 例 
子 )。 没 有 从 外 部 指向 记录 的 指针 ， 因 此 当 我 们 需要 时 可 在 块 间 移 动 记录 。 用 来 处 理 插入 
和 删除 的 一 些 方法 如 下 : 
1) 只 要 有 溢出 则 分 割 块 。 当 我 们 分 割 块 时 ， 调 整 块 的 排序 键 范围 。 
2) 使 块 的 排序 键 范围 固定 ， 而 在 必要 时 使 用 溢出 块 。 为 每 块 和 每 个 溢出 块 存储 一 个 偏 
移 量 表 ， 表 项 只 包含 该 块 中 的 记录 。 
3) 与 (2) 相 同 ， 但 是 在 第 一 个 块 中 (或 偏 移 量 表 需 要 空间 时 在 溢出 块 中 )， 为 块 及 其 所 
有 溢出 块 存储 偏 移 量 表 。 注 意 ， 如 果 偏 移 量 表 需 要 更 多 空间 ， 我 们 可 将 记录 从 第 一 
个 块 移 到 溢出 块 以 腾 出 空间 。 
4) 同 (2), 但 偏 移 量 表 中 存储 排序 键 和 指针 。 
5) FG), 但 偏 移 量 表 中 存储 排序 键 和 指针 。 
回答 下 列 问题 . 
* a) 比较 方法 (1) 和 方法 (2) 在 可 能 包含 给 定 排序 键 的 记录 块 (或 有 溢出 块 的 块 链 的 第 一 
TR) 被 找到 后 ， 为 检索 记录 而 进行 的 磁盘 1/O 的 平均 数目 。 具 有 较 少 平均 磁盘 1/O 
的 方法 有 什么 缺点 吗 ? 
b) 5 为 块 链 中 块 的 数目 ， 每 一 条 记录 检索 所 需 的 磁盘 1/O 的 平均 数目 为 b 的 函数 。 就 这 
个 平均 数目 ， 比 较 方法 (2) 和 (3)。 假 设 偏 移 量 表 占 空间 的 10%， 记 录 占 其 余 90%。 
! c) 在 (b) 部 分 的 比较 中 ， 将 方法 (4) 和 (5) 包 括 进 去 。 假 设 排 序 键 占 记 录 的 1/9。 注 意 ， 如 
果 排 序 键 在 偏 移 量 表 中 ， 我 们 就 不 必 在 记录 中 重复 存储 它 。 这 样 ， 偏 移 量 表 实 际 上 
使 用 空间 的 20%， 记 录 的 其 余部 分 使 用 空间 的 80%。 
习题 12.5.2 关系 数据 库 系统 总 是 倾向 于 尽 可 能 使 用 定 长 元 组 ， 给 出 这 种 优先 考虑 的 三 
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种 理由 。 
12.6 小 结 


“字段 : 字段 是 最 基本 的 数据 元 素 。 在 第 二 级 存储 器 中 ， 许 多 字段 如 整数 或 定 长 字符 串 被 
简单 地 分 配子 适当 的 字 节 数 。 变 长 字符 串 的 编码 要 人 么 使 用 包括 一 个 结束 标记 的 固定 长 度 
的 字 节 序 列 ， 要 么 存储 在 变 长 串 的 区 域 中 ， 其 长 度 用 记录 开始 处 的 一 个 整数 或 结束 处 的 
结束 标记 表明 。 

“ 记录: 记录 由 几 个 字段 再 加 上 一 个 记录 首部 组 成 。 首 部 包括 有 关 记录 的 信息 ， 可 能 包括 
像 时 间 戳 、 模 式 信息 和 记录 长 度 这样 的 信息 。 

* 变 长 记录 : 如 果 记 录 包 含 一 个 或 多 个 变 长 字段 ， 或 包含 一 个 重复 次 数 未 知 的 ， 则 需要 附 
加 的 结构 。 记 录 首 部 的 指针 目录 可 用 于 定位 记录 内 的 变 长 字段 。 也 可 用 ( 定 长 ) 指针 来 
代替 变 长 或 重复 字段 ， 这 个 指针 指向 记录 外 部 存储 记录 值 的 地 方 。 

“ 决 ; 记录 通常 存储 在 块 内 。 块 首部 是 有 关 块 的 信息 ， 占 用 块 中 的 一 些 空间 ， 其 余 空 间 由 
一 条 或 多 条 记录 占用 。 

“ 跨 决 记录 : 通常 ， 一 条 记录 存储 在 一 个 块 中 。 但 是 ， 如 果 记录 比 块 大 ， 或 我 们 希望 利用 
块 的 剩余 空间 ， 则 可 将 记录 分 成 两 个 或 多 个 片段 ， 不 同 片段 存储 在 不 同 块 上 。 这 时 就 需 
要 用 片段 首部 将 一 条 记录 的 片段 链接 起 来 。 

“BLOBS: 非常 大 的 值 ( 如 图 像 和 视频 ) 被 称 做 BLOBS ( 二进制 大 对 象 )。 这 些 值 必须 跨 
多 个 块 存储 。 根 据 存 取 需 要 ， 可 能 将 BLOB 存 储 在 一 个 柱 面 上 以 减少 BLOB 的 存 取 时 间 ， 
或 者 有 必要 将 BLOB 分 割 ， 跨 多 个 磁盘 存储 ， 以 允许 对 其 内 容 进 行 并 行 检索 。 

“ 偏 移 量 表 : 为 支持 记录 的 插入 和 删除 ， 以 及 由 于 修改 记录 中 的 变 长 字段 而 引起 的 记录 长 
度 改变 ,我 们 可 在 记录 首部 放 一 个 偏 移 量 表 ， 其 中 包含 指向 块 中 每 一 记录 的 指针 。 
“溢出 决 : 也 用 于 支持 记录 插 人 和 记录 长 度 增 加 。 块 可 以 链接 到 溢出 块 或 块 链 ， 溢 出 块 或 
块 链 中 存储 一 些 逻 辑 上 属于 第 一 个 块 的 记录 。 

“数据 库 地 址 : 由 DBMS 管 理 的 数据 存在 于 几 个 存储 设备 上 ， 通 常 为 磁盘 上 。 为 在 存储 系统 
中 定位 块 和 记录 ， 我 们 可 使 用 物理 地 址 ， 它 描述 设备 号 、 柱 面 、 磁 道 和 扇 区 ， 还 可 能 包 
插 户 区 内 字 节 。 我 们 也 可 使 用 逻辑 地 址 ， 它 是 任意 的 字符 串 ， 由 映射 表 转 换 成 物理 地 址 。 
“结构 地 址 : 我 们 也 可 通过 使 用 部 分 物理 地 址 ( 如 记录 所 在 块 的 位 置 ) 加 上 另外 的 信息 
( 如 记录 的 码 或 块 的 偏 移 量 表 中 用 于 定位 该 记录 的 位 置 ) 来 定位 记录 。 

HARE: 当 磁 盘 块 被 放 人 主 存 时 ， 如 果 要 跟踪 指针 ， 则 数据 库 地 址 需要 转换 成 内 存 地 
址 。 这 种 转换 被 称 为 混 写 ， 且 可 于 块 被 放 人 内 存 时 自动 进行 ， 或 当 块 第 一 次 被 跟踪 时 按 
需 漫 写 。 

“删除 标记 : 当 一 条 记录 被 删除 时 ， 可 能 会 使 指向 它 的 指针 成 为 悬挂 指针 。 蔡 代 (部 分 ) 
被 删除 记录 的 删除 标记 警告 系统 记录 已 不 在 那里 。 

“被 国定 的 块 ; 因为 各 种 原因 ， 例 如 块 可 能 包含 被 混 写 的 指针 ， 把 一 个 块 从 内 存 拷贝 回 它 
所 在 磁盘 的 位 置 中 也 许 是 不 能 被 接受 的 。 这 样 的 块 称 为 被 固定 的 块 。 如 果 块 被 固定 是 由 
于 混 写 指针 ， 则 在 将 块 返回 磁盘 之 前 ， 必 须 为 这 些 指针 解除 混 写 。 
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第 13 章 索引 结构 


前 面 介绍 了 表示 记录 的 几 种 可 选 方式 ， 现 在 我 们 需要 考虑 整个 关系 或 类 外 延 如 何 表 示 。 仅 
仅 把 关系 中 的 元 组 或 类 外 延 中 的 对 象 随机 分 散 到 各 存储 块 中 是 不 够 的 。 为 了 说 明 这 一 点 ， 我 们 
来 看 一 看 怎样 回答 哪怕 是 像 SELECT * FROM R 这 样 最 简单 的 查询 。 我 们 将 不 得 不 检索 存储 
器 中 的 每 个 存储 块 ， 并 期 望 块 首部 中 存在 足够 的 信息 来 标明 该 岂 中 记录 从 什么 地 方 开 始 ， 并 且 
记录 首部 中 存在 足够 的 信息 来 说 明 该 记录 属于 哪个 关系 。 

一 个 稍 好 的 记录 组 织 方式 是 为 给 定 的 关系 预 留 一 些 块 甚至 几 个 完整 的 柱 面 。 我 们 可 以 认为 
这 些 柱 面 上 所 有 存储 块 中 都 存放 表示 该 关系 中 元 组 的 记录 。 现 在 ， 我 们 至 少 不 需 要 扫描 整个 存 
储 器 就 能 找到 该 关系 的 所 有 元 组 。 

然而 ， 这 种 组 织 方式 却 无 助 于 回答 下 面 这 个 简单 查询 :“ 找 出 给 定 主键 值 的 元 组 ”。6.6.6 节 
介绍 了 在 关系 中 建立 索引 的 重要 性 如 SELECT * FROM R WHERE a = 10。 建 立 索 引 的 目的 
是 为 了 加 快 关系 中 那些 在 某 个 特定 属性 上 存在 特定 值 的 元 组 的 查找 速度 。 如 图 13-1 所 示 ， 索 引 
是 这 样 一 种 数据 结构 : 它 以 记录 的 特征 ( 通常 是 一 个 或 多 个 字段 的 值 ) 为 输入 ,并 能 “快速 地 ” 
找 出 具有 该 特征 的 记录 。 具 体 来 说 ， 索 引 使 我 们 只 需 查看 所 有 可 能 记录 中 的 一 小 部 分 就 能 找到 

所 需 记 录 。 建 立 索 引 的 字段 (组合 ) 称 为 查找 键 ， 在 索引 不 言 而 喻 时 也 可 称 “ 键 "。 


(ai 包含 记 对 应 的 
录 的 块 记录 


图 13-1 索引 以 某 个 〈 或 某 些 ) 字段 值 为 输入 并 找 出 对 应 字段 值 符合 要 求 的 记录 


目前 已 有 多 种 不 同 数据 结构 可 用 做 索引 。 在 本 章 剩 下 的 内 容 中 ， 我 们 考虑 下 面 几 种 设计 和 
实现 索引 的 方法 : 

1. 排序 文件 上 的 简单 索引 。 

2. 非 排序 文件 上 的 辅助 索引 。 

3. B 树 ， 一 种 可 在 任何 文件 上 建立 索引 的 常用 方法 。 

4. 散 列表 ， 另 一 种 有 用 而 重要 的 索引 结构 。 


13.1 顺序 文件 上 的 索引 
研究 索引 结构 ， 我 们 首先 来 考虑 最 简单 的 一 种 : 由 一 个 称 为 数据 文件 的 排序 文件 得 到 另 一 
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一 种 最 简单 的 索引 结构 要 求 文件 按 索引 的 
属性 排序 ， 这 样 的 文件 称 为 顺序 文件 。 当 查找 
键 是 关系 的 主键 时 这 种 结构 特别 有 用 ， 当 然 对 
关系 的 其 他 属性 也 可 使 用 这 种 结构 。 图 13-2 所 图 13.2 顺序 文件 
示 为 一 个 用 顺序 文件 表示 的 关系 。 


个 称 为 索引 文件 的 文件 ， 而 这 个 索引 文件 由 键 - oT ~ 
指针 对 组 成 。 在 索引 文件 中 查找 键 K 通 过 指针 [2 [| 
指向 数据 文件 中 查找 键 为 K 的 记录 。 索 引 可 以 
是 “稠密 的 *”， 即 数据 文件 中 每 个 记录 在 索引 文 | 
件 中 都 设 有 一 个 索引 项 ; 索引 也 可 以 是 “ 稀 朴 
的 ”， 即 数据 文件 中 只 有 某 些 记录 在 索引 文件 中 wT 
表示 出 来 ， 通 常 为 每 个 数据 块 在 索引 文件 中 设 fo [| | 
一 个 索引 项 。 
In| | 
1311 RUE XE 一 
| | 


键 以 及 几 种 不 同 的 键 
术语 “ 键 ” 有 几 个 涵义 ， 本 书 在 7.1.1 节 中 用 它 表示 一 个 关系 的 主键 。 在 11.4.4 节 中 我 
们 学 过 “排序 键 "， 文 件 的 记录 据 此 排序 。 现 在 来 看 “查找 键 ”。 已 知 在 该 属性 (组 ) 上 的 值 ， 


需要 通过 索引 查找 具有 相应 值 的 元 组 。 当 “ 键 ” 的 涵义 不 清楚 时 ， 尽 量 使 用 恰当 的 修饰 
词 (“ 主 " “排序” 或 “查找 ”)。 不 过 请 注意 ， 在 13.1.2 节 和 13.1.3 节 中 ， 很 多 时 候 这 三 种 
键 是 同一 涵义 。 


在 这 个 文件 中 ,元 组 按 主键 排序 。 这 里 假定 主 健 是 整数 ， 我 们 只 列 出 了 主键 字段 。 同 时 ， 
我 们 还 做 了 一 个 不 代表 上 典型 情况 的 假定 ， 即 每 个 存储 块 中 只 可 存放 两 个 记录 。 例 如 ， 文件 的 第 
一 个 块 中 存放 键 值 为 10 和 20 的 两 条 记录 。 在 这 里 和 其 他 许多 例子 中 ， 我 们 使 用 10 的 连续 倍数 来 
做 键 值 ， 虽 然 实 际 中 不 会 要 求 键 值 都 是 10 的 倍数 或 10 的 所 有 倍数 都 必须 出 现 。 

13.1.2 MERSI 

既然 把 记录 排 好 了 序 ， 我 们 就 可 以 在 记录 上 建立 笛 密 索引 。 它 是 这 样 的 一 系列 存储 块 : 决 
中 只 存放 记录 的 键 以 及 指向 记录 本 身 的 指针 ， 指 针 就 是 如 12.3 节 讨论 的 那样 的 地 址 。 我 们 说 这 
里 的 索引 是 “稠密 的 "， 因 为 数据 文件 中 每 个 键 在 索引 中 都 被 表示 出 来 。 与 此 相 比 ， 将 在 13.1.3 
节 中 讨论 的 “稀疏 ”索引 通常 在 索引 中 只 为 每 个 数据 块 存放 一 个 键 。 

稠密 索引 文件 中 的 索引 块 保持 键 的 顺序 与 文件 中 的 排序 顺序 一 致 。 既 然 假 定 查找 键 和 指针 
所 占 存 储 空间 远 小 于 记录 本 身 ， 我 们 就 可 以 认为 存储 索引 文件 比 存储 数据 文件 所 需 存储 块 要 少 
得 多 。 当 内 存 容纳 不 下 数据 文件 但 能 容纳 下 索引 文件 时 ， 索 引 的 优势 尤为 明显 。 这 时 ， 通 过 使 
用 索引 文件 ， 我 们 每 次 查询 只 用 一 次 WO 操作 就 能 找到 给 定 键 值 的 记录 。 

例 13.1 图 13-3 所 示 为 一 个 建立 在 顺序 文件 上 的 稠密 索引 ， 该 顺序 文件 的 起 始 部 分 如 图 
13-2 所 示 。 为 了 方便 起 见 ， 还 是 假定 文件 中 记录 的 键 值 是 10 的 倍数 ， 虽然 实 际 中 我 们 不 能 指望 
找到 这 样 一 个 有 规律 的 键 值 模 式 。 我 们 还 假定 每 个 索引 存储 块 只 可 存放 四 个 键 -指针 对 。 在 实 
际 中 我 们 会 发 现 每 个 存储 块 能 存放 更 多 的 键 -指针 对 ， 甚 至 是 好 几 百 个 。 

第 一 个 索引 块 存放 指向 前 四 个 记录 的 指针 ， 第 二 个 索引 块 存放 指向 接 下 来 的 四 个 记录 的 指 
针 ， 依 此 类 推 。 出 于 将 在 13.1.6 节 讨论 的 原因 ， 实 际 中 我 们 可 能 不 希望 装 满 所 有 的 索引 块 。 O 
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稠密 索引 支持 按 给 定 键 值 查找 相应 记录 的 
查询 。 给 定 一 个 键 值 〖， 我 们 先 在 索引 块 中 查 
找 玉 。 当 找到 KA, RR K 所 对 应 的 指针 到 数 
据 文件 中 寻找 相应 的 记录 。 似 乎 在 找到 天 之 前 
我 们 需要 检索 索引 文件 的 每 个 存储 块 ， 或 平均 
一 半 的 存储 块 。 然 而 ， 由 于 有 下 面 几 个 因素 ， 
基于 索引 的 查找 比 它 看 起 来 更 为 有 效 : 

1. 索 引 块 数量 通常 比 数据 块 数量 少 。 

2. 由 于 键 被 排序 ， 我 们 可 以 使 用 二 分 查找 
法 来 查找 到。 若 有 m 个 索引 块 ， 我 们 只 需 查找 
logon TR. 

3. 索引 文件 可 能 足够 小 ， 以 致 可 以 永久 地 
存放 在 主 存 缓冲 区 中 。 要 是 这 样 的 话 ， 查 找 键 
天 时 就 只 涉及 主 存 访 问 而 不 需 执 行 UO 操 作 。 

例 13.2 假设 一 个 关系 有 1 000 000 个 元 组 ， 图 13-3 MESH CA) EASE RES (A) 
大 小 为 4096 字 节 的 存储 块 可 存放 10 个 这 样 的 元 组 ， 那 么 这 个 关系 所 需 的 存储 空间 就 要 超过 400 
MB ， 因 为 太 大 而 可 能 在 主 存 中 无 法 存放 。 然 而 ， 要 是 关系 的 键 字段 占 30 字 节 ， 指 针 占 8 字 节 ， 
加 上 抉 头 所 需 空间 ， 那 么 我 们 可 以 在 一 个 小 大 为 4096 字 节 的 存储 块 中 存放 100 个 键 -指针 对 。 

这 样 ， 一 个 稠密 索引 就 需要 10 000 个 存储 块 ， 即 40 MB 。 我 们 就 有 可 能 为 这 样 一 个 索引 文 
件 分 配 主 存 缓冲 区 ， 不 过 要 看 主 存 的 使 用 情况 和 主 存 的 大 小 。 进 一 步 讲 ，log: (10 000) 大 约 
是 13， 因 此 采用 二 分 查找 法 我 们 只 需 访问 13~14 个 存储 块 就 可 以 查找 到 给 定 键 值 。 且 由 于 二 分 
查找 法 只 检索 所 有 存储 块 中 一 小 部 分 ( 是 这 样 一 些 存储 块 ， 它 们 位 于 1/4 或 3/4、1/8 或 3/8、5/8 
或 78， 等 等 )， 即 使 不 能 把 整个 索引 文件 存放 到 主 存 中 ， 我 们 也 可 以 把 这 些 最 重要 的 存储 块 放 
到 主 存 中 ， 这 样 ， 检 索 任 何 键 值 所 需 的 IO 次 数 都 远 小 于 14。 口 





索引 块 的 定位 
假设 存在 一 些 定位 索引 块 的 机 制 ， 根 据 索 引 可 以 查找 到 单个 元 组 (若是 稠密 索引 ) 或 数 
据 存 储 块 (若是 稀疏 索引 )。 许 多 定位 索引 的 机 制 可 以 使 用 。 例 如 。 假 如 索引 较 小 ， 我 们 可 


以 将 它 存放 到 主 存 或 磁盘 的 预 留存 储 区 中 。 假 如 索引 较 大 ， 则 如 我 们 在 13.1.4 节 讲述 的 那 
样 ， 我 们 可 以 在 索引 上 再 建 一 级 索引 ， 并 将 新 的 索引 本 身 存 放 到 某 个 国定 的 地 方 。 对 这 一 
观点 进行 推广 。 最 后 就 产生 了 13.3 节 中 的 B 树 ， 在 B 树 中 我 们 只 需要 知道 根 索 引 块 的 位 置 。 





13.1.3 FERS] 

要 是 稠密 索引 太 大 ， 我 们 可 以 使 用 一 种 称 为 稀疏 索引 的 类 似 结构 。 它 节省 了 存储 空间 ， 但 
查找 给 定 值 的 记录 需 更 多 的 时 间 。 如 图 13-4 所 示 ， 稀 朴 索引 只 为 每 个 存储 块 设 一 个 键 -指针 对 。 
键 值 是 每 个 数据 抉 中 第 一 个 记录 的 对 应 值 。 

13.3 ” 同 例 13.! 一 样 ， 假 定数 据 文 件 已 排序 ， 且 其 键 值 为 连续 的 10 的 倍数 ， 直 至 某 个 较 
大 的 数 。 我 们 还 继续 假定 每 个 存储 块 可 存放 四 个 键 -指针 对 。 这 样 ， 第 一 个 索引 存储 块 中 为 前 
四 个 数据 存储 块 的 第 一 个 键 值 的 索引 项 ， 它 们 分 别 是 10、30、50 和 70。 按 照 前 面 假定 的 键 值 模 
式 ， 第 二 个 索引 存储 块 中 为 第 5~ 第 8 数据 存储 块 的 第 一 个 键 值 的 索引 项 ， 它 们 分 别 是 90、110、 
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130 和 150。 图 中 还 列 出 第 三 个 索引 存储 块 存放 
的 键 值 ， 它 们 分 别 是 假设 的 第 9~ 第 12 个 数据 存 
储 块 的 第 一 个 键 值 。 口 


413.4 WARE RI FERE 
稠密 索引 少 得 多 ， 以 例 13.2 中 更 接近 实际 的 参 
数 为 例 。 由 于 有 100 000 个 数据 存储 块 ， 且 每 个 
索引 存储 块 可 存放 100 个 键 -指针 对 ， 那 么 要 是 
使 用 稀 朴 索引 ， 我 们 就 只 需要 1000 个 索引 存储 
块 。 现 在 素 引 的 大 小 只 剩 下 4MB ， 这 样 大 小 的 
文件 完全 可 能 存 到 主 存 中 。 

另 一 方面 ， 稠 密 索 引 不 用 去 检索 包含 记录 
的 块 ， 就 可 以 回答 下 面 形式 的 查询 :“ 是 否 存 
在 键 值 为 天 的 记录 ? ”。 键 在 索引 中 的 存在 图 13-4 顺序 文件 上 的 稀 琉 索引 
足以 保证 数据 文件 中 键 值 为 的 记录 的 存在 。 
当然 如 果 使 用 稀疏 索引 ， 对 于 同样 的 查询 ， 却 需要 执行 IO 操作 去 检索 可 能 存在 键 值 为 天 的 
记录 的 块 。 口 


在 已 有 稀疏 索引 的 情况 下 ， 要 找 出 键 值 为 kK 的 记录 ， 我 们 得 在 索引 中 查找 键 值 小 于 或 等 于 
kK 的 最 大 键 值 。 由 于 索引 文件 已 按键 排序 ， 我 们 可 以 使 用 二 分 查找 法 来 定位 这 个 索引 项 ， 然 后 
根据 它 的 指针 找到 相应 的 数据 块 。 现 在 我 们 必须 搜索 这 个 数据 块 以 找到 键 值 为 K 的 记录 。 当 然 ， 
数据 块 中 必须 有 足够 的 格式 化 信息 来 标明 其 中 的 记录 及 记录 内 容 。 只 要 合适 ， 可 以 采用 12.2 节 
和 12.4 节 中 的 任何 技术 。 

13.1.4 多 级 索引 

索引 文件 本 身 可 能 占据 多 个 存储 块 ， 正 如 我 们 在 例 13.2 和 例 13.4 中 看 到 的 那样 。 要 是 这 些 
存储 块 不 在 我 们 知道 能 找到 它们 的 某 个 地 方 ， 比 如 指定 的 磁盘 柱 面 ， 那 么 ， 就 可 能 需要 另 一 种 
数据 结构 来 找到 这 些 索引 存储 块 。 即 便 能 定位 索引 存储 块 ， 并 且 能 使 用 二 分 查找 法 找到 所 需 索 
引 项 ， 我 们 仍 可 能 需要 执行 多 次 WO 操作 才能 得 到 我 们 所 需 的 记录 。 

通过 在 索引 上 再 建 索引 ， 我 们 能 够 使 第 一 级 索引 更 为 有 效 。 图 13-5 对 图 13-4 进 行 了 扩展 ， 
它 是 在 图 13-4 的 基础 上 增加 二 级 索引 得 到 的 〈 和 前 面 一 样 ， 我 们 假设 使 用 10 的 连续 倍数 这 一 不 
常见 的 模式 )。 按 照 同样 想法 ， 我 们 可 以 在 二 级 索引 的 基础 上 建立 三 级 索引 ， 等 等 。 然 而 ， 这 
种 做 法 有 它 的 局 限 ， 与 其 建立 多 级 索引 ， 我 们 宁愿 考虑 使 用 在 13.3 节 讲述 的 B 树 。 

在 这 个 例子 中 , 一 级 索引 是 稀 下 的 ,虽然 我 们 也 可 以 选择 稠密 索引 来 作为 一 级 索引 。 但是， 
二 级 和 更 高 级 的 索引 必须 是 稀疏 的 ， 因 为 一 个 索引 上 的 稠密 索引 将 需要 和 其 前 一 级 索引 同样 多 
的 键 -指针 对 ， 因 而 也 就 需要 同样 的 存储 空间 。 因 此 ， 二 级 稠密 索引 只 是 增加 额外 的 结构 ， 而 
不 会 带 来 任何 好 处 。 

例 13.5 ”继续 以 例 13.4 中 假设 的 关系 来 分 析 ， 假 定 我 们 在 一 级 稀疏 索引 上 建立 二 级 索引 。 
由 于 一 级 稀 朴 索引 占据 1000 个 存储 块 ， 且 我 们 可 以 在 一 个 存储 块 中 存放 100 个 键 -指针 对 ， 则 只 
需要 10 个 存储 块 来 存放 这 个 二 级 索引 。 

10 个 存储 块 完全 可 以 一 直 缓 存在 主 存 中 。 若 是 这 样 ， 要 查找 给 定 键 值 K 的 记录 ， 可 以 先 
查看 二 级 索引 以 找到 小 于 或 等 于 键 值 K 的 最 大 键 值 。 根 据 这 个 最 大 键 值 对 应 的 指针 找到 一 级 
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索引 的 某 个 存储 块 8， 通 过 这 个 存储 块 B， 我 们 就 肯定 能 找到 所 需 的 记录 。 假 若 存储 块 B 不 在 
内 存 中 ， 我 们 就 把 存储 块 B 读 进 内 存 ， 这 是 我 们 所 需 的 第 一 次 WO 操作 。 在 块 B 中 查找 小 于 或 
等 于 键 值 有 的 最 大 键 值 ， 要 是 有 键 值 为 K 的 记录 存在 ， 则 通过 块 B 中 这 一 键 值 对 应 的 指针 就 
可 以 找到 包含 键 值 为 K 的 记录 的 数据 块 。 这 个 数据 块 需要 又 一 次 的 VO 操作 。 这 样 ， 我 们 只 用 
两 次 WO 操作 就 完成 了 查询 。 . 口 





图 13-5 增加 一 个 第 二 级 稀疏 索引 


13.1.5 重复 查找 键 的 索引 

到 目前 为 止 ， 我 们 都 假定 作为 建立 索引 基础 的 查找 键 是 关系 的 键 ， 所 以 对 任何 一 个 键 值 ， 
关系 中 最 多 有 一 个 记录 存在 。 然 而 ， 索 引 经 常 用 于 非 键 属性 ， 因 此 有 可 能 一 个 给 定 的 键 对 应 于 
多 个 记录 。 假 如 按 查 找 键 对 记录 进行 排序 ， 而 不 管 相同 键 值 记录 之 间 的 次 序 ， 那么 ， 我 们 可 以 
采用 前 面 介绍 的 方法 来 处 理 不 是 关系 的 键 的 查找 键 。 

对 前 面 方法 最 简单 的 扩充 是 为 数据 文件 建立 稠密 索引 ; 每 一 个 具有 键 值 的 记录 设 一 索引 
项 。 也 就 是 说 ， 我 们 允许 索引 文件 中 出 现 重 复 的 查找 键 。 找 出 所 有 给 定 索引 键 有 的 记录 因此 
就 比较 简单 : 在 索引 文件 中 找到 具有 键 值 K 的 
第 一 个 索引 项 ， 后 面 紧 接 着 就 是 其 他 的 具有 键 
值 的 索引 项 ， 找 出 它们 ， 然 后 依据 这 些 索引 
的 指针 找 出 所 有 具有 键 值 玉 的 记录 。 

更 为 有 效 的 方法 是 为 每 个 键 值 K 只 设 一 个 
索引 项 。 该 索引 项 的 指针 指向 键 值 为 K 的 第 一 
个 记录 。 为 了 找 出 其 他 键 值 为 K 的 记录 ， 需 在 
数据 文件 中 顺序 向 前 查找 ; 在 排序 的 数据 文件 
中 ， 这 些 记录 一 定 紧 跟 在 所 找到 的 记录 后 存放 。 

图 13-6 举 例 说 明了 这 一 想法 。 

例 13.6 ”假如 要 找 出 图 13-6 中 所 有 索引 键 
值 为 20 的 记录 。 先 在 索引 中 找到 键 值 为 20 的 索 - 
引 项 并 顺 着 它 的 指针 找到 第 一 个 键 值 为 20 的 记 
录 。 然 后 在 数据 文件 中 继续 往 前 找 ， 由 于 刚好 图 13-6 人 允许 重复 键 的 稠密 索引 
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处 于 数据 文件 第 二 个 存储 块 的 最 后 一 条 记录 ， 
我 们 就 到 第 三 个 存储 块 中 去 查找 “。 我 们 发 现 
第 三 抉 中 第 一 个 记录 的 键 值 为 20， 但 第 二 个 记 
录 的 键 值 为 30。 因此 ， 不 用 再 往 前 查找 ; 我 们 
已 经 找到 键 值 为 20 的 两 条 记录 。 口 


图 13-7 为 图 13-6 所 示 数 据 文件 上 的 一 个 稀 
下 索 引 。 这 种 稀疏 索引 是 很 常见 的 ; 它 的 键 - 指 
针对 对 应 数据 文件 中 每 个 块 的 第 一 个 查找 键 。 

为 了 在 这 种 数据 结构 中 找 出 所 有 索引 键 为 
K 的 记录 ， 我 们 先 找 到 索引 中 键 值 小 于 或 等 于 
K 的 最 后 一 个 索引 项 已 ， 然 后 往 索引 起 始 的 方 
向 找 ， 直 到 碰 到 第 一 个 索引 项 或 碰 到 一 个 严格 
小 于 键 值 K 的 索引 项 EE 为止。 从 E A E 的 索引 
M(E EME) 指向 所 有 可 能 包含 查找 键 为 天 
的 记录 的 数据 块 。 








图 13-7 指明 了 每 个 块 中 最 小 
查找 键 的 稀 斑 索引 


例 13.7 ”假定 我 们 想 在 图 13-7 中 查找 键 值 为 20 的 记录 。 第 一 个 索引 块 的 第 三 个 索引 项 就 是 
E!， 它 是 符合 键 值 小 于 等 于 20 的 最 后 一 个 索引 项 。 我 们 向 后 查找 ,立即 找到 了 键 值 小 于 20 的 索 
引 项 。 因 此 ， 第 一 个 索引 块 的 第 二 个 索引 项 就 是 E。 它 们 相应 地 指向 第 二 、 第 三 个 数据 块 ， 
正 是 在 这 两 个 数据 块 中 我 们 找到 查找 键 为 20 的 所 有 记录 。 

再 举 一 例 。 著 K=10, WW E 就 是 第 一 个 索引 块 的 第 二 个 索引 项 ， 而 E, 不 存在 ， 因 为 我 们 
在 索引 中 找 不 到 更 小 的 键 值 。 因 此 ， 按 照 第 一 个 索引 项 到 第 二 个 索引 项 的 指针 ， 我 们 找到 前 两 
个 数据 块 。 在 这 两 个 数据 块 中 我 们 就 能 找到 所 有 键 值 为 10 的 记录 。 o 


一 种 稍 有 不 同 的 方式 如 图 13-8 所 示 。 图 中 为 每 个 数据 块 中 新 的 、 即 未 在 前 一 存储 块 中 出 现 


过 的 最 小 查找 键 设 一 个 索引 项 。 要 是 在 存储 块 
中 没有 新 键 值 出 现 ， 那 么 就 为 该 块 中 惟一 的 键 
值 设 一 个 索引 块 。 在 这 种 方式 下 ， 我 们 查找 键 
EA K 的 记录 可 以 通过 在 索引 中 查找 第 一 个 键 
值 满足 如 下 条 件 之 一 的 索引 项 。 

a) 等 于 天 ; 或 者 

b) 小 于 天 ， 但 下 一 个 键 值 大 于 Ko 

我 们 按照 这 个 索引 项 的 指针 找到 相应 的 数 
据 块 。 要 是 在 这 个 数据 块 中 至 少 找到 一 个 键 值 
FAK 的 记录 ， 那 么 我 们 就 要 继续 查找 其 他 数据 
块 ， 直 到 找 出 所 有 查找 键 为 天 的 记录 。 

例 13.8 ”假定 要 在 图 13-8 所 示 的 结构 中 查 
找 K=20 的 记录 ， 上 述 规则 指示 出 第 一 个 索引 
块 的 第 二 个 索引 项 ,我 们 沿 着 这 个 索引 项 的 指 





图 13-8 指明 每 块 中 最 小 新 查找 键 的 稀疏 索引 


O 为 了 能 找到 数据 文件 的 下 一 个 块 ， 我 们 可 以 用 链表 的 形式 把 所 有 块 链接 起 来 ， 换 言 之 ， 给 每 个 存储 块 -一 个 指 
针 指 向 下 一 个 存储 块 。 我 们 也 可 以 返回 索引 ， 沿 下 一 指针 到 达 下 一 数据 文件 块 。 
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针 找 到 键 值 为 20 的 第 一 个 存储 块 。 由 于 下 一 个 存储 块 也 有 键 值 为 20 的 记录 ， 我 们 必须 继续 向 
前 查找 。 

假若 玉 = 30， 上 述 规则 指示 出 第 三 个 索引 项 。 我 们 沿 着 它 的 指针 找到 第 三 个 数据 块 ， 键 值 
为 30 的 记录 在 这 个 数据 块 中 开始 存放 。 最 后 ,假若 K = 25， 则 上 述 选 择 规则 的 (b) 部 分 指出 第 
二 个 索引 项 。 我 们 因此 来 到 第 二 个 数据 块 。 如 果 存 在 查找 键 为 25 的 记录 ， 则 至 少 有 一 个 在 该 块 
上 值 为 20 的 记录 之 后 ， 因 为 我 们 知道 第 三 个 存储 块 中 新 出 现 的 第 一 个 键 值 是 30。 既 然 没 有 键 什 
为 25 的 记录 ， 我 们 的 查找 就 失败 了 。 口 


13.1.6 数据 修改 期 间 的 索引 维护 
到 目前 为 止 ， 我 们 都 假定 数据 文件 和 索引 文件 由 一 些 连续 、 装 满 某 种 类 型 的 记录 的 存储 块 
组 成 。 由 于 随 着 时 间 的 推移 数据 会 发 生变 化 ,我们 需 对 记录 进行 插入 、 删 除 和 更 新 。 这 势必 引 
起 像 顺 序 文件 这 样 的 文件 组 织 发 生变 化 ， 以 至 于 曾经 能 容纳 于 块 中 的 记录 不 再 被 容纳 。 我 们 可 
以 使 用 12.5 节 讲述 的 技术 来 重新 组 织 数 据 文件 。 我 们 来 回忆 一 下 那 一 部 分 的 三 个 重要 想法 。 

L 当 需 要 额外 的 存储 空间 时 ， 创 建 溢出 块 ! 或 当 溢出 块 中 记录 被 删除 后 不 再 需要 该 存储 空 
间 时 删除 溢出 块 。 溢 出 块 在 稀 栈 索引 中 没有 索引 项 而 应 该 被 看 做 是 基本 存储 决 的 扩充 。 

2. 若 不 用 溢出 块 ， 可 以 按 序 插入 新 的 存储 块 。 要 是 这 样 做 ， 那 么 新 的 存储 抉 就 需要 在 稀 下 
索引 中 设 索引 项 。 在 索引 文件 中 索引 项 的 变动 会 引起 和 数据 文件 的 插 人 与 删除 同样 的 问题 。 要 
是 我 们 创建 新 索引 块 ， 那 么 这 些 索 引 块 必须 能 以 某 种 方法 定位 ， 例 如 像 13.1.4 节 中 那样 使 用 另 
一 级 索引 。 

3. 当 块 中 没有 空间 可 以 插入 元 组 时 ， 有 时 可 移动 一 些 元 组 到 相 邻 块 ; 相反 ， 当 相 邻 块 元 组 
太 少时 ， 我 们 可 以 合并 它们 。 

然而 ， 当 数据 文件 发 生变 化 后 ， 我 们 通常 必须 对 索引 进行 调整 以 适应 数据 文件 的 变化 。 具 
体 的 方法 要 依赖 于 索引 是 稠密 还 是 稀 政 以 及 在 上 述 三 种 方法 中 选择 哪 一 个 。 不 过 ， 我 们 应 记 住 
一 个 -- 般 的 原则 ; 

“索引 文件 是 顺序 文件 的 一 个 例子 ， 键 -指针 对 可 以 看 做 是 按 查找 键 排序 的 记录 。 因 此 ， 数 

据 文件 修改 过 程 中 用 来 维护 数据 文件 的 那些 策略 同样 适用 于 索引 文件 。 

在 图 13-9 中 ， 我 们 总 结 了 针对 数据 文件 七 种 不 同行 为 而 对 稠密 索引 或 稀 朴 索引 所 需 采取 的 
措施 。 这 七 种 行为 包括 : 创建 或 删除 空 溢出 块 、 创 建 或 删除 顺序 文件 的 空 块 、 插 入 、 删 除 和 移 
动 记录 。 注 意 ， 假 定 空 的 存储 块 才能 被 创建 或 剧 除 ， 具 体 来 说 ， 要 是 我 们 想 删 除 一 个 有 记录 的 
块 ， 需 要 先 删除 其 中 的 记录 或 把 记录 移 到 其 他 的 块 。 


创建 空 溢出 块 
删除 空 溢 出 块 
创建 空 顺序 块 


删除 空 顺序 块 
播 人 记录 
删除 记录 
移动 记录 





图 13-9 顺序 文件 上 上 的 行为 对 索引 文件 的 影响 
在 这 个 表 中 ， 我 们 注意 到 : 


人 
= 
A 
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“ 创建 或 删除 一 个 空 溢出 块 对 两 种 索引 均 无 影响 。 对 稠密 索引 不 产生 影响 是 因为 索引 是 针 
对 记录 ; 对 稀 朴 索引 不 产生 影响 是 因为 索引 是 针对 基本 存储 块 而 非 滋 出 块 。 

“创建 或 删除 顺序 文件 的 块 对 稠密 索引 无 影响 ， 这 仍 是 因为 索引 是 针对 记录 而 非 存储 块 ; 
但 它 对 稀 琉 索引 会 有 影响 ， 因 为 我 们 必须 为 创建 或 删除 的 块 分 别 创 建 或 删除 一 个 索引 项 。 
“ 插 人 或 删除 记录 导致 稠密 索引 上 的 同一 动作 , 因为 记录 的 相应 键 -指针 对 要 被 插入 或 删除 。 
然而 ， 这 对 稀疏 索引 通常 没有 影响 。 例 外 的 情况 是 当 记录 是 存储 块 中 第 一 个 记录 时 ， 稀 
玖 索引 中 对 应 块 的 键 值 必须 被 更 新 。 因 此 ， 我 们 在 图 13-9 中 相应 的 更 新 操作 后 加 注 了 一 
个 间 号 ， 表 示 这 个 更 新 是 可 能 的 ， 但 不 确定 。 

“ 类似 地 ， 移 动 一 个 记录 ， 不 论 是 在 块 内 还 是 在 块 间 都 会 引发 稠密 索引 中 相应 索引 项 的 更 
新 ; 对 稀 朴 索引 而 言 ， 则 仅 当 被 移动 记录 是 或 变 成 了 该 块 中 的 第 一 个 记录 时 才 会 引发 更 
新 操作 。 


为 数据 变迁 所 做 的 准备 
由 于 随 着 时 间 的 推移 ， 关 系 或 类 外 延 通常 会 增长 。 因 而 较为 明智 的 做 法 是 :不 论 数 
据 块 还 是 索引 块 ， 都 为 其 保留 一 定 的 空闲 空间 。 比 如 说 ， 一 开始 在 每 块 中 只 使 用 75 允 的 空 


间 。 这 样 ， 在 创建 溢出 块 或 在 块 之 间 移 动 记录 之 前 ， 我 们 能 运行 一 段 时 间 。 无 溢出 块 或 
仅 有 少量 的 溢出 块 的 优势 在 于 访问 每 个 记录 平均 MO 次 数 仅 为 1。 溢 出 块 数 越 多 ， 则 查找 给 
定 记录 所 需 访 问 的 平均 存储 块 数 也 多 。 


我 们 将 通过 一 系列 的 例子 来 阐明 上 述 几 点 所 隐 含 的 一 组 算法 。 这 些 例子 既 包 括 稀 朴 索引 又 





包括 稠密 索引 ， 既 包括 记录 移动 方法 又 包括 溢出 块 方法 。 
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例 13.9 首先， 让 我 们 来 考虑 顺序 文件 的 记录 删除 操作 ， 该 顺序 文件 上 建 有 稠密 索引 。 我 
们 从 图 13-3 所 示 的 文件 和 索引 开始 。 假 设 键 值 为 30 的 记录 被 删除 。 图 13-10 所 示 为 记录 删除 后 
的 结果 。 

首先 ， 键 值 为 30 的 记录 从 顺序 文件 中 删除 。 
我 们 假定 块 外 的 指针 可 以 指向 抉 内 的 记录 ， 因 
而 我 们 不 打算 将 剩余 记录 40 在 块 中 向 前 移动 ， 
而 选择 在 记录 30 处 留 下 一 个 删除 标记 。 

在 索引 中 , 我 们 删 去 键 值 为 30 的 键 -指针 对 。 
假定 不 允许 块 外 的 指针 指向 索引 记录 ， 因 而 没 
有 必要 为 该 键 -指针 对 留 下 删除 标记 。 所 以 ， 我 
们 采取 合并 索引 块 的 方法 ， 并 把 后 面 的 索引 记 
录 前 移 。 口 


例 13.10 ”现在 ,我 们 来 考虑 顺序 文件 上 的 
两 个 删除 操作 ， 该 顺序 文件 上 建 有 稀 朴 索引 。 从 图 13-4 所 示 的 文件 和 索引 开始 ， 同 样 假设 键 值 
为 30 的 记录 被 删除 。 我 们 还 假定 块 中 记录 可 前 后 移动 : 要 么 块 外 没有 指针 指向 记录 ， 要 么 我 们 
使 用 图 12-16 所 示 的 偏 移 量 表 来 支持 这 样 的 移动 。 

删除 记录 30 后 的 情形 如 图 13-11 所 示 。 记 录 30 已 被 删除 ， 后 面 的 记录 40 向 前 移 以 使 块 的 前 
部 紧凑。 由 于 40 现 在 是 第 二 个 数据 块 的 第 一 个 键 值 ， 我 们 需要 更 新 该 块 的 索引 记录 。 从 图 
13-11 中 我 们 看 到 ， 与 指向 第 二 数据 块 指 针 相 对 应 的 键 值 已 从 30 改 为 40。 





图 13-10 稠密 索引 中 删除 查找 键 为 30 的 记录 
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现在 ， 假 定 记 录 40 也 被 删除 ， 删 除 后 的 情形 如 图 13-12 所 示 。 第 二 个 数据 块 已 经 没有 记录 。 
如 果 顺 序 文件 是 存放 在 任意 的 存储 块 上 ( 例如 ， 不 是 柱 面 上 连续 的 存储 块 )， 那 么 我 们 可 以 把 
该 块 链 接 到 可 用 空间 链表 中 。 






AAA 
AAAAAAALAAAAA 





图 13-11 稀 琉 索 引 中 删除 查找 键 为 30 的 记录 13-12 稀 玻 索引 中 删除 查找 键 为 40 的 记录 


要 完成 记录 40 的 删除 ， 我 们 还 要 调整 索引 。 既 然 第 二 个 数据 块 不 再 存在 ， 我 们 就 从 索引 中 
. 删除 其 索引 项 。 在 图 13-12 中 通过 把 后 面 的 索引 项 前 移 ， 使 第 一 个 索引 块 紧凑 。 这 一 步 是 可 选 
的 。 口 
例 13.11 现在 ,我 们 来 考虑 插入 的 影响 ， 从 图 13-11 开 始 ， 该 图 中 我 们 刚刚 从 一 个 有 稀 玖 索 
引 的 文件 中 删除 了 记录 30， 但 记录 40 还 保留 着 。 我 们 现在 插入 一 个 键 值 为 15 的 记录 。 通 过 查看 
稀 朴 索引 ， 我 们 发 现 该 记录 属于 第 一 个 数据 块 。 但 是 该 数据 块 已 满 ， 它 存放 着 记录 10 和 记录 20。 
我 们 能 做 的 一 件 事 是 在 附近 找 有 空闲 空间 
的 块 ， 这 样 就 找到 第 二 个 数据 块 。 因 此 ,我们 
就 在 文件 中 往 后 移动 记录 ， 以 腾 出 空间 来 存储 
记录 15。 结 果 如 图 13-13 所 示 。 记 录 20 从 第 一 个 
数据 块 移 到 了 第 二 个 数据 块 ， 并 且 记 录 15 存 放 
到 记录 20 的 位 置 上 。 为 了 在 第 二 个 数据 块 中 存 
放 记录 20 和 保持 记录 的 顺序 ， 将 第 二 个 数据 块 
的 记录 40 往 后 移 并 把 记录 20 放 在 它 的 前 面 。 
最 后 一 步 是 修改 变动 的 数据 块 的 索引 项 。 
我 们 可 能 需要 修改 第 一 个 数据 块 的 键 -指针 对 的 
键 值 。 不 过 这 里 不 用 ， 因 为 插入 的 记录 不 是 该 图 13-13 在 有 稀疏 索引 的 文件 中 插入 ， 
数据 块 的 第 一 个 记录 。 然 而 ， 我 们 需要 修改 第 使 用 立即 重组 方法 
二 个 数据 块 的 索引 项 的 键 值 ， 因 为 该 块 的 第 一 个 记录 的 键 值 原来 是 40， 现 在 变 成 了 20。 O 


例 13.12 例 13.11 所 示 策 略 的 问题 在 于 ， 我 们 恰好 在 相 邻 存储 块 中 找到 了 空闲 空间 。 要 是 前 
面 没有 删除 键 值 为 30 的 记录 ， 那 么 我 们 查找 空闲 空间 的 工作 只 是 徒劳 。 原 则 上 讲 ， 我 们 不 得 不 
把 从 记录 20 到 数据 文件 最 后 的 所 有 记录 全 部 后 移 ， 直 到 我 们 到 达 文 件 未 尾 并 能 创建 额外 的 块 。 

因为 有 这 样 的 风险 ， 用 溢出 块 为 有 太 多 记录 的 基本 块 补 充 空 间 的 做 法 通常 更 为 明智 。 图 
13-14 所 示 为 在 图 13-11 所 示 结 构 中 插入 键 值 为 15 的 记录 后 的 情形 。 和 例 13.11 一 样 ， 第 一 个 数据 
块 有 太 多 记录 。 我 们 不 是 将 记录 移动 到 第 二 个 数据 块 ， 而 是 为 第 一 个 数据 块 创建 一 个 溢出 块 。 
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可 以 看 到 图 13-14 中 每 个 数据 存储 都 有 一 个 小 凸 起 ， 它 表示 块头 中 存放 指向 溢出 块 的 指针 的 空 
间 。 任 意 多 个 溢出 块 之 间 可 通过 这 些 指针 空间 链接 起 来 。 
在 我 们 这 个 例子 中 ， 记 录 15 被 插入 到 位 于 记录 10 之 后 的 正确 位 置 ， 记 录 20 为 腾 出 空间 被 移 
到 溢出 块 中 。 因 为 数据 块 ! 的 第 一 个 记录 没有 改变 ， 所 以 索引 项 也 就 不 必 改 变 。 注 意 ， 索 引 中 
不 存在 该 溢出 块 的 索引 项 ， 因 为 该 游 出 块 被 看 成 是 数据 块 1 的 扩充 ， 它 不 是 顺序 文件 本 身 的 存 
储 块 。 口 





图 13-14 使 用 溢出 块 技术 在 有 稀 芍 索引 的 文件 中 插 人 


13.1.7 习题 
* 习题 13.1.1 假定 每 个 存储 块 可 存 人 3 个 记录 或 10 个 键 -指针 对 。 设 记录 数 为 np， 保存 一 个 数 
据 文件 和 
a) 一 个 稠密 索引 。 
b) 一 个 稀 朴 索引 。 
各 需要 多 少 块 ( 表示 为 n 的 函数 ) ? 
习题 13.1.2 ”假定 每 个 存储 块 可 存放 30 个 记录 或 200 个 键 -指针 对 ， 但 数据 块 和 索引 块 充满 
度 均 不 许 超过 80%。 重 做 习题 13.1.1。 
习题 13.1.3 ”假定 我 们 使 用 多 级 索引 ， 级 数 恰 好 使 最 后 一 级 索引 只 有 一 个 存储 块 。 重 做 习 
题 13.1.1。 
习题 13.1.4 假定 每 个 存储 块 可 存放 3 个 记录 或 10 个 键 -指针 对 ， 如 习题 13.1.1, 但 是 可 能 出 
现 重 复 键 。 说 得 具体 点 ,数据 库 中 1/3 的 键 有 一 个 记录 ，1/3 的 键 有 两 个 记录 ，1/3 的 键 恰好 
有 三 个 记录 。 假 设 我 们 有 一 个 稠密 索引 ， 但 它 只 为 每 个 查找 键 值 设 一 个 索引 项 ， 指 针 指向 
该 键 值 的 第 一 个 记录 。 最 初 没有 存储 块 在 内 存 中 ， 试 计算 找到 给 定 键 值 K 的 所 有 记录 所 需 
的 平均 磁盘 MO 数 。 你 可 以 认为 包含 键 K 的 索引 块 地 址 已 知 ， 尽 管 它 在 磁盘 上 。 
620}! 习题 13.1.5 分 别 按 下 述 情况 重 做 习题 13.1.4。 
a) 稠密 索引 : 每 个 记录 设 一 个 键 -指针 对 ， 包 括 有 重复 键 的 记录 。 
b) AARI: 如 图 13-7 所 示 ， 索 引 中 指明 每 个 数据 块 的 最 小 键 值 。 


*! 
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c) RARI: 如 图 13-8 所 示 ， 索 引 中 指明 每 个 数据 块 新 出 现 的 最 小 键 值 。 
! 习题 13.1.6 ”假如 在 一 个 关系 的 主键 属性 上 建立 稠密 索引 ， 那 么 ， 我 们 就 可 以 使 指向 元 组 
(或 表示 这 些 元 组 的 记录 ) 的 指针 指向 索引 项 而 非 记录 本 身 。 这 两 种 方式 各 自 的 优点 是 什 
A? 
习题 13.1.7 ”在 图 13-13 基 础 上 继续 做 改变 ， 假 设 接 下 来 删除 键 值 为 66、70 和 80 的 记录 ， 然 
后 插入 键 值 为 21、22 等 直到 29 的 所 有 记录 。 假 定额 外 的 空间 可 通过 下 述 方式 得 到 : 
* a) 为 数据 文件 或 索引 文件 增加 溢出 块 。 

b) 记录 尽量 后 移 : 必要 时 在 数据 文件 和 /或 索引 文件 未 尾 增 加 存储 块 。 

c) 可 根据 需要 在 这 些 文件 中 间 插 人 新 的 数据 块 或 索引 块 。 
习题 13.1.8 假定 在 处 理 一 个 具有 xz 个 记录 的 数据 文件 中 的 插 人 操作 时 ， 我 们 按照 需要 创建 
溢出 块 。 同 时 还 假定 数据 块 当前 平均 只 充满 一 半 。 假 如 随机 地 插 和 人 记录 ， 试 问 得 插入 多 少 
记录 才能 使 我 们 查找 到 给 定 键 值 记录 所 需 访 问 存储 块 ( 包括 溢出 块 ) 的 平均 数 达 到 2? 假 
定 在 查找 中 ， 我 们 先 查 看 索引 指向 的 块 ， 然 后 只 按 顺序 查看 溢出 块 ， 直 到 找到 所 需 记 录 ， 
该 记录 必然 在 链 上 的 某 一 块 中 。 


13.2 辅助 索引 


13.1 节 中 所 描述 的 数据 结构 为 主 索 引 ， 因 为 它们 决定 了 被 索引 记录 的 位 置 。 在 13.1 节 中 数 
据 文件 是 按 查找 键 的 值 排序 ， 由 此 能 决定 记录 的 位 置 。 在 13.4 节 中 将 讨论 另 一 种 常用 的 主 索引 
散 列 表 ， 其 中 查找 键 决定 记录 所 属 的 “ 桶 ”。 

然而 ， 为 了 给 各 种 各 样 的 查询 提供 便利 ， 经 常 需 要 在 一 个 关系 上 建 多 个 索引 。 例 如 ， 再 考 
虑 图 12-1 中 定义 的 关系 MovieStar。 AN EA 我 们 可 以 期 望 DBMS 
创建 主 索 引 结构 来 支持 指定 明星 名 字 的 查询 。 但 是 我 们 现在 想 在 数据 库 中 按 出 生日 期 查找 指定 
明星 的 信息 ， 因 而 执行 如 下 查询 : 


SELECT name, address 
FROM MovieStar 
WHERE birthdate = DATE *1952-01-01?; 


我 们 需要 在 属性 bizthdate 上 建立 辅助 索引 来 帮助 执行 这 个 查询 。 在 SQL 系统 中 ， 可 以 
通过 如 下 显示 的 命令 来 建立 这 样 一 个 索引 : 


CREATE INDEX BDIndex ON MovieStar(birthdate) ; 


辅助 索引 可 用 于 任何 索引 目的 : 这 种 数据 结构 有 助 于 查找 给 定 一 个 或 多 个 字段 值 的 记录 。 
但 是 ， 辅 助 索 引 与 主 索 引 最 大 的 差别 在 于 辅助 索引 不 决定 数据 文件 中 记录 的 存放 位 置 。 而 仅 能 
告诉 我 们 记录 的 当前 存放 位 置 ， 这 一 位 置 可 能 是 由 建立 在 其 他 某 个 字段 上 的 主 索引 确定 的 。 畏 
助 索引 和 主 索引 的 这 一 差别 有 一 个 有 趣 的 推论 : 

“谈论 一 个 稀疏 的 辅助 索引 是 毫 无 意义 的 。 因 为 辅助 索引 不 影响 记录 的 存储 位 置 ， 我 们 也 

就 不 能 根据 它 来 预测 键 值 不 在 索引 中 显 式 指明 的 任何 记录 的 位 置 。 

* 因此 ， 辅 助 索 引 总 是 稠密 索引 。 
13.2.1 辅助 索引 的 设计 

辅助 索引 是 稠密 索引 ， 且 通常 有 重复 值 。 如 前 所 述 ， 索 引 项 由 键 -指针 对 组 成 ， 这 里 的 
键 ” 是 查找 键 且 不 要 求 惟一 。 为 了 便于 找到 给 定 键 值 的 所 有 索引 项 ， 索 引文 件 中 索引 项 按键 
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值 排序 。 要 是 我 们 在 这 种 结构 上 建立 二 级 索引 ， 
那么 这 个 二 级 索引 将 是 稀疏 的 ， 其 原因 在 
13.1.4 节 中 已 讨论 过 。 

例 13.13 ”图 13-15 所 示 为 一 个 典型 的 辅助 
索引 。 与 我 们 前 面 图 示 的 准则 一 样 : 数据 文件 
中 每 块 存放 两 个 记录 。 记 录 只 显示 了 各 自 的 查 
找 键 ; 其 值 为 整 型 ， 而 且 像 前 面 一 样 我 们 给 它 
们 取 值 为 10 的 倍数 。 要 注意 ， 与 13.1.5 节 数据 
文件 不 同 的 是 ， 这 里 的 数据 没有 按 查 找 键 排序 。 

然而 ， 索 引文 件 中 的 键 是 排序 的 。 这 样 就 
造成 索引 块 中 的 指针 并 不 是 指向 一 个 或 少数 几 
个 连续 存储 块 ， 而 是 指向 许多 不 同 的 数据 块 。 
例如 ， 为 了 检索 键 值 为 20 的 所 有 记录 ， 不 仅 要 
查找 两 个 索引 块 ， 而 且 还 得 访问 指针 指向 的 三 
个 不 同 数据 块 。 因 此 ， 查 找 同 样 数量 的 记录 ， 使 用 辅助 索引 比 使 用 主 索引 可 能 需要 多 得 多 的 磁 
盘 IMO。 但 是 这 个 问题 是 无 法 解决 的 ， 我 们 无 法 控制 数据 块 中 的 元 组 顺序 ， 因 为 这 些 元 组 可 能 
已 按 其 他 属性 排序 。 

我 们 可 以 在 图 13-15 所 示 的 辅助 索引 上 建立 二 级 索引 。 这 一 级 索引 将 是 稀 朴 的 ， 如 13.1.4 节 
讨论 的 那样 ， 对 应 于 每 个 索引 块 的 第 一 个 键 值 或 第 一 个 新 出 现 的 键 值 有 一 个 键 -指针 对 。 口 
13.2.2 辅助 索引 的 应 用 | 

除了 能 在 被 组 织 成 顺序 文件 的 关系 〈 或 类 外 延 ) 上 建立 附加 索引 外 ， 辅 助 索引 甚至 还 用 做 
某 些 数据 结构 的 主键 索引 。 这 些 结构 之 一 就 是 “ 堆 ” 结 构 。 在 这 种 结构 中 ， 关 系 的 记录 之 间 没 
有 特定 的 顺序 。 

第 二 种 需要 辅助 索引 的 常见 数据 结构 是 聚 徐 文件。 在 这 种 结构 中 ， 两 个 或 多 个 关系 的 元 组 
被 混在 一 起 。 下 面 的 一 个 例子 说 明了 这 种 组 织 结构 在 特定 情况 下 存在 的 合理 性 。 


例 13.14 假设 有 两 个 关系 ， 其 数据 模式 可 简要 定义 如 下 : 


Movie(title, year, length, inColor, StudioName, ProducerC# ) 

Studio(name, address, presc# ) 
属性 title 和 Yeaz 一 起 组 成 关系 Movie 的 键 ， 而 属性 name 是 关系 studio 的 键 。 Movie 中 的 
属性 studioName 是 参照 Studig 中 的 name 的 外 键 。 进 一 步 假 定 查 询 的 常见 形式 如 下 : 


SELECT title, year 

FROM Movie, studio 

WHERE studioName = zzz AND Movie, StudioName=Studio Name ; 
这 里 ，zz2 表 示 某 一 特定 制 片 厂 的 名 称 ， 如 ,“Disney”。 

如 果 我 们 确信 关系 Moive 和 studio 之 间 的 基于 制 片 厂 名 称 的 连接 很 常见 ， 就 可 以 采用 一 
种 涌 稚 文件 结构 来 使 这 些 连 接 效率 更 高 。 在 这 种 结构 中 ， 关 系 Movie 的 元 组 和 关系 studio 的 
元 组 存放 在 相同 的 一 系列 块 中 。 说 得 具体 些 ， 我们 在 每 个 stuaio 的 元 组 后 面 存放 关系 Movie 
中 该 制 片 厂 的 所 有 电影 元 组 。 其 结构 如 图 13-16 所 示 。. 

如 果 我 们 为 Studio 建立 了 一 个 查找 键 presc# 的 索引 ， 那 么 不 管 zzz 是 什么 值 ， 我 们 都 可 





图 13-15 辅助 索引 
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以 快速 地 找到 与 zzz 对 应 的 制 片 广 。 并 且 ， 在 聚 簇 文件 中 ，Studio 的 元 组 后 面 将 跟随 着 
Movie 中 所 有 studioName 值 与 该 制 片 厂 的 name 值 相 匹配 的 元 组 。 从 而 ， 我 们 可 以 通过 尽 可 
能 少 的 MO 来 找到 某 个 制 片 厂 制 作 的 全 部 影片 ， 因 为 我 们 要 查找 的 Movie 元 组 已 经 被 尽 可 能 密 
集 地 存放 在 相 邻 的 块 中 了 。 口 
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制 片 厂 1 的 影片 制 片 厂 2 的 影片 制 片 厂 3 的 影片 制 片 厂 4 的 影片 
图 13-16 将 制 片 三 及 其 制作 的 影片 聚 入 在 一 起 的 聚 篮 文 件 


13.2.3 辅助 索引 的 间接 性 

图 13-15 所 示 结 构 存在 空间 浪费 ， 有 了 时 浪费 很 大 。 假 如 某 个 索引 键 值 在 数据 文件 中 出 现 n 次 ， 
那么 这 个 键 值 在 索引 文件 中 就 要 写 n 次 ， 如 果 我 们 只 为 指向 该 键 值 的 所 有 指针 存储 一 次 键 值 ， 
这 样 就 会 比较 好 。 

避免 键 值 重复 的 一 种 简便 方法 是 使 用 一 个 称 为 桶 的 间接 层 ， 它 介 于 辅助 索引 文件 和 数据 
文件 之 间 。 如 图 13-17 所 示 ， 每 个 查找 键 K 有 一 个 键 -指针 对 ， 指 针 指 向 一 个 桶 文件 ， 该 文件 中 
存放 kK 的 桶 。 从 这 个 位 置 开始 ， 直 到 索引 指向 的 下 一 个 位 置 ， 其 间 指 针 指向 索引 键 值 为 K 的 所 
有 记录 。 

例 13.15 例如 在 图 13-17 的 索引 文件 中 ， 沿 索引 键 为 50 的 索引 项 指针 找到 中 间 “ 桶 ”文件 。 
这 一 指针 刚好 将 我 们 带 到 桶 文件 中 第 一 个 块 的 最 后 一 个 指针 。 继 续 向 前 查找 ， 找 到 下 一 块 的 第 
一 个 指针 。 因 为 索引 文件 中 键 值 为 60 的 索引 项 指针 刚好 指向 桶 文件 的 第 二 个 块 的 第 二 个 指针 ， 





所 以 我 们 停止 查找 。 口 





索引 Ai 数据 文件 
图 13-17 在 辅助 索引 中 使 用 间接 节省 空间 情况 


在 图 13-17 所 示 的 方式 中 ， 只 要 查找 键 值 的 存储 空间 比 指针 大 就 可 以 节省 空间 。 不 过 ， 即 
使 在 键 值 和 指针 大 小 相当 的 情况 下 ， 在 辅助 索引 上 使 用 间接 也 有 一 个 重要 的 好 处 ， 我们 通常 可 


A 


以 在 不 访问 数据 文件 记录 的 前 提 下 利用 桶 的 指针 来 帮助 回答 一 些 查 询 。 特 别 是 ， 当 查询 有 多 个 
条 件 ， 而 每 个 条 件 都 有 一 个 可 用 的 辅助 索引 时 ， 我 们 可 以 通过 在 主 存 中 对 指针 集合 求 交 f 到 
满足 所 有 条 件 的 指针 ， 然 后 只 需要 检索 交集 中 指针 指向 的 记录 。 这 样 ， 我 们 就 节省 了 检索 满足 
部 分 条 件 而 非 所 有 条 件 的 记录 所 需 的 VO 开 销 ”。 - 


例 13.16 考虑 常用 的 关系 


Movie(title, year, length, inColor, studioName, ProducerC#) 


假定 我 们 在 studioName 和 year 上 都 建立 了 有 间接 桶 的 辅助 索引 ， 而 且 我 们 要 执行 如 下 查询 : 


SELECT title 
FROM Movie 
WHERE studioName = Disney’ AND year = 1995; 


BD: 找 出 Disney 在 1995 年 制作 的 所 有 电影 。 

图 13-18 说 明了 如 何 使 用 索引 来 回答 这 个 查询 。 通 过 studicoName 上 的 索引 ， 我 们 找 出 了 
所 有 指向 Disney 制 作 的 电影 的 指针 。 但 是 ,我们 并 不 把 这 些 记 录 从 磁盘 上 取 到 主 存 中 ， 而 是 通 
过 year 上 的 索引 ， 再 找 出 所 有 指向 1995 年 制作 的 电影 的 指针 。 然 后 我 们 求 两 个 指针 集 的 交集 ， 
正好 得 到 1995 年 Disney 制 作 的 所 有 电影 。 现 在 我 们 到 磁盘 上 去 检索 所 有 包含 一 部 或 几 部 这 样 的 - 
电影 的 块 ， 这 样 只 需 检索 尽 可 能 少 的 数据 块 。 g 


studio 的 桶 Movie 元 组 year 的 桶 
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制 片 广 的 索引 年 的 索引 
图 13-18 在 主 存 中 求 桶 的 交集 


”假若 我 们 直接 从 索引 而 非 桶 中 取得 指针 ， 也 可 以 使 用 这 一 指针 求 交 技巧 。 不 过 ， 由 于 指针 比 键 -指针 对 使 用 更 
少 存储 空间 ， 因 此 使 用 桶 通常 能 节省 磁盘 LO。 
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13.2.4 文档 检索 和 倒 排 索引 
多 年 来 ， 信 息 检 索 界 都 在 处 理 文档 的 存储 和 按 关键 字 集 高 效 检索 文档 的 问题 。 随 着 WWW 
的 出 现 以 及 在 线 保 存 所 有 文档 成 为 可 能 ， 基 于 关键 字 的 文档 检索 已 成 为 数据 库 最 大 的 难题 之 一 。 
尽管 可 用 来 找 出 相关 的 文档 的 查询 有 许多 种 ， 但 最 简单 、 最 常见 的 形式 可 用 关系 的 术语 描述 为 : 
。 一 个 文档 可 被 看 成 是 关系 Doc 的 元 组 。 这 个 关系 有 很 多 属性 ， 每 个 属性 对 应 于 文档 可 能 
出 现 的 一 个 词 。 每 个 属性 都 是 布尔 型 一 -表明 该 词 在 该 文档 出 现 还 是 没有 出 现 。 因 此 ， 
这 一 关系 模式 可 以 被 看 做 ; 


Doc (Phascat ，hasDog,，…) 


其 中 hascat 取 值 为 真 当 且 仅 当 该 文档 中 至 少 出 现 一 次 “cat” 这 个 词 。 
“关系 Doc 的 每 个 属性 上 都 建 有 辅助 索引 。 不 过 ， 我 们 不 必 费 心 为 属性 值 为 FALSE 
的 元 组 建 索引 项 ， 相 反 ， 索 引 只 会 将 我 们 带 到 出 现 该 词 的 那些 文档 ， 即 ， 索 引 中 
只 有 查找 键 值 为 TRUE 的 索引 项 。 
“我 们 不 是 给 每 个 属性 ( 即 每 个 词 ) 建立 一 个 单独 的 索引 ， 而 是 把 所 有 的 索引 合成 一 个 ， 
称 为 倒 排 索引 。 这 个 索引 使 用 间接 桶 来 提高 空间 利用 率 ， 正 如 13.2.3 节 中 讨论 的 那样 。 
例 13.17 ”图 13-19 所 示 为 一 个 倒 排 索引 。 取 代 记 录 数 据 文件 的 是 一 个 文档 集合 ， 每 个 文档 
可 以 被 存放 在 一 个 或 多 个 磁盘 块 上 。 倒 排 索引 本 身 由 一 系列 词 -指针 对 组 成 ; 词 实际 上 是 索引 
的 查找 键 。 正 如 到 目前 为 止 讨论 的 任何 一 种 索引 那样 ， 倒 排 索 引 被 存储 在 连续 的 块 中 。 不 过 ， 
在 一 些 文档 检索 应 用 中 ， 数 据 的 变化 不 像 典型 数据 库 中 那样 频繁 ， 因 而 通常 也 就 不 用 提供 应 付 
块 溢出 或 索引 变化 的 措施 。 








倒 排 索引 





.--Fido the 
dog... 





文档 
图 13-19 文档 的 倒 排 索引 


指针 指向 “ 桶 ”文件 中 的 位 置 。 例 如 ， 在 图 13-19 中 , “cat” 一 词 有 一 个 指针 指向 桶 文件 。 
该 指针 在 桶 文件 中 指明 的 位 置 之 后 是 所 有 包含 “cat” 的 文档 的 指针 。 图 中 给 出 了 一 些 这 样 的 
指针 。 类 似 地 ， 图 中 “dog” 一 词 的 指针 指向 一 个 指针 列表 ， 该 列表 中 的 指针 指向 包含 “dog” 
的 所 有 文档 。 口 


桶 文件 中 的 指针 可 以 是 : 
1. 指向 文档 本 身 的 指针 。 


CN 
N 
N 
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2. 指向 词 的 某 一 次 出 现 的 指针 。 在 这 种 情况 下 ， 指 针 可 以 是 由 文档 的 第 一 个 块 和 一 个 表示 
该 词 在 文档 中 出 现 次 数 的 整数 构成 的 对 。 
一 旦 有 了 使 用 这 种 由 指向 词 的 每 次 出 现 的 指针 桶 的 想法 ， 我 们 可 能 就 会 想 扩展 这 个 想法 ， 


[628] 使 桶 数组 包含 更 多 有 关 词 的 出 现 的 信息 。 这 样 ， 桶 文件 本 身 就 成 了 有 重要 结构 的 记录 集合 。 
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这 种 做 法 的 早期 应 用 是 区 分 一 个 词 出 现在 文档 的 题目 、 摘 要 ， 还 是 正文 中 。 随 着 Web 上 文档 的 
增长 ， 尤 其 是 使 用 HTML 、XML 或 其 他 标记 语言 的 文档 的 增长 ， 我 们 也 可 以 指明 与 词 关联 的 
标记 。 例 如 ， 我 们 不 仅 可 以 区 分 出 现在 题 头 、 表 或 锚 中 的 词 ， 而 且 可 以 区 分 以 不 同 字体 和 字 
号 出 现 的 词 。 


对 信息 检索 的 进一步 讨论 
有 很 多 技术 可 用 于 改进 基于 关键 字 的 文档 检索 效率 。 完 整 介绍 这 些 技术 已 超出 本 书 
的 范围 ， 这 里 介绍 两 种 有 用 的 技术 : 
1. 抽取 词 千 。 在 将 单词 的 出 现 放 入 索引 中 之 前 。 我 们 删除 词 的 后 组 以 找 出 它 的 “ 词 
干 "。 例 如， 复数 名 词 可 被 当 作 其 单数 形式 处 理 。 因 此 ， 例 13.17 中 的 倒 排 索引 显然 使 用 


了 抽取 词 干 技术 ， 因 为 搜索 “dog” 一 词 时 我 们 不 仅 得 到 “dog” 的 文档 ,而 且 得 到 一 个 
有 单词 “dogs” 的 文档 。 

2. 无 用 词 。 像 “the”"、“and” 之 类 最 常用 的 词 称 为 无 用 词 ， 通 常 不 包含 在 倒 排 索引 中 。 
原因 在 于 好 几 百 个 常用 词 出 现在 太 多 的 文档 中 ,以 至 于 它 根本 无 益 于 检索 特定 主题 。 去 
除 无 用 词 还 可 以 明显 地 缩小 索引 。 





13.18 ”图 13-20 所 示 为 一 个 标明 HTML 文 档 中 词 的 出 现 情况 的 桶 文件 。 如 果 有 出 现 类 型 
即 标记 的 ， 就 在 第 一 列 指明 。 第 二 、 第 三 列 一 起 构成 指针 指向 词 的 出 现 。 第 三 列 指明 文档 ， 而 
第 二 列 给 出 了 该 文档 中 该 词 出 现 的 次 数 。 

可 以 用 这 种 数据 结构 来 回答 关于 文档 的 各 种 查询 ， 而 且 不 用 仔细 查看 文档 。 例 如 ， 假 设 我 
们 想 找 出 有 关 狗 的 ， 并 将 狗 与 猫 做 了 比较 的 文档 ; 没有 深刻 理解 文档 的 内 容 ， 我 们 就 无 法 准确 
地 回答 这 个 查询 。 但 是 ， 要 是 查找 符合 以 下 条 件 的 文档 ， 我 们 可 以 获得 一 个 很 好 的 提示 : 

a) 在 标题 (title) 中 提 到 狗 ; H 

b) 在 某 个 锚 中 提 到 猫 一 该 锚 可 能 是 连 到 一 个 关于 猫 的 文档 的 链接 。 


类 型 ”位置 








图 13-20 在 倒 排 索 引 中 存放 更 多 信息 
我 们 可 用 通过 对 指针 求 交 来 回答 这 个 查询 。 也 就 是 说 ， 按 对 应 于 “cat” 的 指针 找到 这 一 单 
词 的 所 有 出 现 。 我 们 从 桶 文件 中 选择 有 “cat” 出 现 且 类 型 为 “ 锚 ” 的 文档 指针 。 接 着 ， 我 们 
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找到 “dog” 的 桶 中 项 目 ， 并 从 中 选择 类 型 为 “标题 ”的 文档 指针 。 如 果 把 这 两 个 指针 集 相交 ， 
就 得 到 符合 在 标题 中 提 到 “dog” 且 在 某 个 锚 中 提 到 “cat” 这 一 条 件 的 文档 。 口 


桶 中 的 插入 与 删除 
在 一 些 图 如 图 13-19 中 ， 我 们 所 给 的 桶 是 大 小 适中 的 紧凑 数 给 。 实 际 上 ， 它 们 是 单个 
字段 (指针 ) 的 记录 ， 且 像 其 他 任何 记录 集合 一 样 存放 在 块 中 。 因 此 在 插入 和 删除 指针 时 ， 


我 们 可 用 到 目前 为 止 学 过 的 任 一 种 技术 ,例如 为 文件 的 扩充 预 留 空闲 空间 、 溢 出 块 和 可 
能 的 块 内 或 块 间 记录 移动 。 在 后 一 种 情况 下 ， 当 我 们 移动 倒 排 索引 和 桶 中 指针 指向 的 记 
录 时 ， 必 须 小 心地 改变 从 倒 排 索引 到 桶 文件 中 的 相应 指针 。 





13.2.5 习题 
* 习题 13.2.1 ” 随 着 数据 文件 的 插入 和 删除 ， 辅 助 索 引 也 需要 修改 。 请 提出 一 些 使 辅助 索引 
与 数据 文件 的 改变 同步 的 方法 。 
习题 13.2.2 ”如 习题 13.1.1 一 样 ， 假 定 我 们 的 存储 块 能 存放 3 个 记录 或 10 个 键 -指针 对 。 假 设 [630 
用 这 样 的 块 来 存放 一 个 数据 文件 和 查找 键 K 上 的 辅助 索引 。 对 于 文件 中 出 现 的 每 个 K 值 v， 
可 能 有 1 个 、2 个 或 3 个 记录 的 天 字段 值 为 v。 正 好 1/3 的 键 值 出 现 一 次 ，1/3 的 键 值 出 现 2 次 ， 
1/3 的 键 值 出 现 3 次 。 再 假定 索引 块 和 数据 块 都 在 磁盘 上 ， 但 有 在 一 种 结构 能 使 我 们 接受 任 
意 K 值 v， 并 获知 包含 一 个 或 多 个 查找 键 值 为 K 的 记录 的 所 有 索引 块 指针 (或 许 在 主 存 中 有 
一 个 二 级 索引 )。 计 算 检 索 所 有 查找 键 值 为 "的 记录 的 平均 磁盘 IO 数 ? 
习题 13.2.3 考虑 如 图 13-16 所 示 的 聚集 文件 组 织 结构 ， 且 假定 每 个 存储 块 可 以 放 10 个 制 片 
三 记录 或 电影 记录 。 再 假定 每 个 制 片 厂 制作 的 电影 数 都 在 1 ~ m 之 间 均 匀 分 布 。 如 果 表 示 
成 m 的 函数 ， 则 检索 某 个 制 片 三 和 它 所 制作 的 电影 所 需 的 平均 磁盘 1/O 数 是 多 少 ? 如 果 电 影 
记录 随机 分 布 在 大 量 块 中 ， 这 个 平均 磁盘 IO 数 又 是 多 少 ? 
习题 13.2.4 ”假定 一 个 存储 块 可 存放 3 个 记录 、10 个 键 值 -指针 对 或 50 个 指针 。 如 果 我 们 使 
用 图 13-17 的 间接 桶 : 
* a) 如 果 平 均 每 个 查找 键 值 出 现在 10 个 记录 中 ， 存 放 3000 个 记录 和 它 的 辅助 索引 共 需 要 
多 少 块 ? 如果 不 使 用 桶 又 需要 多 少 块 ? 
! b) 如 果 给 定 键 值 的 记录 数 没有 限制 ， 所 需 的 最 大 和 最 小 存储 块 数 各 为 多 少 ? 
习题 13.2.5 ”在 习题 13.2.4(a) 的 假定 下 ， 在 有 桶 结构 和 无 桶 结构 时 查找 和 检索 具有 给 定 键 
值 的 10 个 记录 所 需 的 平均 磁盘 MO 各 为 多 少 ? 假定 开始 时 内 存 中 没有 任何 存储 块 ， 但 定位 
索引 块 或 桶 的 块 时 ， 可 以 不 引入 额外 的 HO， 而 只 需要 检索 这 些 块 并 将 其 送 入 主 存 的 IO。 
习题 13.2.6 ”假定 和 习题 13.2.4 一 样 ， 一 个 存储 块 可 存放 3 个 记录 ，10 个 键 -指针 对 或 50 个 指 
针 。 和 例 13.16 一 样 ， 设 关系 movie 的 属性 studioName 和 属性 year 上 建 有 辅助 索引 。 假 
定 有 51 部 Disney 制 作 的 电影 ，101 部 1995 年 制作 的 电影 ， 其 中 只 有 一 部 是 Disney 制 作 的 。 分 
别 计算 下 列 情况 下 回答 例 13.16 的 查询 ( 找 出 1995 年 Disney 制 作 的 电影 ) 所 需 的 磁盘 IO 数 ， 
= a) 两 个 辅助 索引 都 使 用 桶 ， 从 桶 中 检索 指针 ， 并 在 主 存 中 求 它们 的 交 ， 然 后 只 检索 
1995 年 Disney 制 作 的 那 一 部 电影 对 应 的 记录 。 631 
b) 不 使 用 桶 ， 而 使 用 studicName 上 的 索引 来 取得 指向 Disney 影 片 的 指针 ， 检 索 它们 
并 选择 1995 年 制作 的 那些 电影 记录 。 假 定 任意 两 个 Disney 影 片 的 记录 都 不 在 同一 个 
存储 块 中 。 
c) Fj (b) 一 样 ， 但 从 year 上 的 索引 开始 。 假 定 任意 两 个 1995 年 制作 的 电影 的 记录 都 


* 


an 
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不 在 同一 个 存储 块 中 。 
习题 13.2.7 ”假定 我 们 有 一 个 1000 个 文档 的 库 ， 且 希望 建立 一 个 10 000 个 词 的 倒 排 索引 。 
一 个 存储 块 能 容纳 10 个 词 -指针 对 或 50 个 指针 ， 指 针 可 以 指向 文档 或 文档 的 某 个 位 置 。 词 
的 分 布 为 Zipfian 分 布 〈( 参 见 16.4.3 节 中 的 “Zipfian 分 布 ” 框 ) ; 出 现 频率 排名 第 ;位 的 词 出 
现 的 次 数 是 100 000V; ， 其 中 i = 1，2，…，10 000。 
* a 每 个 文档 中 平均 有 多 少 个 词 ? 
* b 假定 我 们 的 倒 排 索 引 中 只 为 每 个 词 记 录 出 现 该 词 的 所 有 文档 。 存 放 该 倒 排 索引 最 多 


需要 多 少 个 存储 块 ? 
c) 假定 我 们 的 倒 排 索引 保存 指向 每 个 词 的 每 次 出 现 的 指针 。 存 放 该 倒 排 索引 需要 多 少 
存储 块 ? 


d) 如 果 常 用 的 400 个 词 (“无 用 ” 字 ) 不 包括 在 索引 中 ， 重 做 (b)。 
e) 如 果 常 用 的 400 个 字 不 包括 在 索引 中 ， 重 做 (c)。 
习题 13.2.8 如果 我 们 使 用 一 个 扩充 的 倒 排 索引 ， 如 图 13-20 所 示 ， 就 能 执行 许多 其 他 类 型 
的 查询 。 说 明 如 何 使 用 这 种 索引 去 找到 : 
* a) “cat” 和 “dog” 彼 此 相距 不 超过 五 个 位 置 并 且 出 现在 同一 类 元 素 (如 : 标题 、 文 
本 或 锚 ) 中 的 文档 。 
b)“cat” 后 刚好 隔 一 个 位 置 就 眼 (有 )“dog” 的 文档 。 
c) 标题 目 中 同时 出 现 “dog” 和 “cat” 的 文档 。 


13.3 B 树 


虽然 一 级 或 两 级 索引 通常 有 助 于 加 快 查询 ， 但 在 商用 系统 中 常 使 用 一 种 更 通用 的 结构 。 这 
一 通用 的 数据 结构 簇 称 为 B 树 ， 而 最 常 使 用 的 变 体 称 为 Bt 树 。 实 质 上 : 

+ B 树 能 自动 地 保持 与 数据 文件 大 小 相 适 应 的 索引 层次 。 

。 对 所 使 用 的 存储 块 空间 进行 管理 ,使 每 个 块 的 充满 程度 在 半 满 与 全 满 之 间 。 这 样 的 索引 

不 再 需要 溢出 块 。 

在 接 下 来 的 内 容 中 ， 我 们 将 讨论 “B 树 ” ， 但 具体 细节 都 针对 B+ 树 这 一 变 体 。 其 他 类 型 的 B 
树 在 习题 中 讨论 。 
13.3.1 B 树 的 结构 

正如 其 名 称 所 暗示 的 那样 ，B 树 把 它 的 存储 块 组 织 成 一 棵 树 。 这 棵 树 是 平衡 的 ， 即 从 树 根 
到 树叶 的 所 有 路 径 都 一 样 长 。 通 常 B 树 有 三 层 : 根 、 中 间 层 和 叶 ， 但 也 可 以 是 任意 多 层 。 为 了 
对 B 树 有 一 个 直观 的 印象 ， 可 以 先 看 一 下 图 13-21、 图 13-22 和 图 13-23， 其 中 前 两 个 图 所 示 的 为 
B 树 结 点 ， 而 后 一 个 图 所 示 的 为 一 个 小 而 完整 的 B 树 。 

对 应 于 每 个 B 树 索引 都 有 一 个 参数 nx， 它 决 定 了 B 树 的 所 有 存储 块 的 布局 。 每 个 存储 块 存放 
n 个 查找 键 值 和 n+1i 个 指针 。 在 某 种 意义 上 讲 ，B 树 的 存储 块 类 似 于 13.1 节 讲述 的 索引 块 ， 只 不 
过 B 树 的 块 除 了 有 n 个 键 - 指 针对 外 ， 还 有 一 个 额外 的 指针 。 在 存储 块 能 容纳 x 个 键 和 n+1 个 指针 
的 前 提 下 ， 我 们 把 n 取 得 尽 可 能 大 。 

例 13.19 ”假定 我 们 的 存储 块 大 小 为 4096 字 节 ， 且 整数 型 键 值 占 4 字 节 ， 指 针 占 8 字 节 。 要 
是 不 考虑 存储 块 块头 信息 所 占 空间 ， 那 么 我 们 希望 找到 满足 4n + 8n + 1) < 4096 的 最 大 整数 
值 nx。 这 个 值 是 n = 340, 口 


下 面 几 个 重要 的 规划 限制 B 树 的 存储 块 中 能 出 现 的 东西 ; 
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。 叶 结 点 的 键 值 是 数据 文件 中 键 值 的 副本 ,这些 键 值 从 左 向 右 有 序 地 分 布 在 叶 结 点 上 。 

。 根 结 点 中 至 少 有 两 个 指针 被 使 用 ”。 所 有 指针 指向 位 于 B 树 下 一 层 的 存储 块 。 

“ 叶 结 点 中 ， 最 后 一 个 指针 指向 它 右边 的 下 一 个 叶 结 点 存储 块 ， 即 指向 下 一 个 键 值 大 于 它 
的 块 。 在 时 块 的 其 他 "个 指针 当中 ， 至 少 有 |+D/2| 个 指针 被 使 用 且 指向 数据 记录 ; 未 
使 用 的 指针 可 看 做 空 指针 是 不 指向 任何 地 方 。 如 果 第 ;个 指针 被 使 用 ， 则 指向 具有 第 ;个 键 
值 的 记录 。 

“在 内 部 结 点 中 ， 所 有 的 n+ 1 个 指针 都 可 以 用 来 指向 B 树 中 下 一 层 的 块 。 其 中 至 少 [(n+D/21 
个 指针 被 实际 使 用 (但 如 果 是 根 结 点 ， 则 不 管 n 多 大 都 只 要 求 至 少 两 个 指针 被 使 用 )， 如 
果 j 个 指针 被 使 用 ， 那 该 块 中 将 有 六 1 个 键 ， 设 为 K，K，…， 玫 -1。 第 一 个 指针 指向 B 
树 的 一 部 分 ， 一些 键 值 小 于 K 的 记录 可 在 这 一 部 分 找到 。 第 二 个 指针 指向 B 树 的 另 一 部 
分 ， 所 有 键 值 大 小 等 于 K 且 小 于 KK 的 记录 可 在 这 一 部 分 中 ， 依 此 类 推 。 最 后 ,第 j 个 指 
针 指 向 B 树 的 又 一 部 分 ， 一 些 键 值 大 于 等 于 K-i 的 记录 可 以 在 这 一 部 分 中 找到 。 注 意 : 
某 些 键 值 远 小 于 Ki 或 远大 于 K- 的 记录 可 能 根本 无 法 通过 该 块 到 达 ， 但 可 通过 同一 层 的 
其 他 块 到 达 。 





指向 序列 上 的 
下 一 个 叶 结 点 
指向 键 值 为 指向 键 值 为 指向 键 值 为 
57 的 记录 81 的 记录 95 的 记录 


图 13-21 典型 的 B 树 叶 结 点 


例 13.20 在 这 个 例子 和 其 他 B 树 实例 中 ， 我 们 设 n = 3。 也 就 是 说 ， 块 中 可 存放 3 个 键 值 和 
4 个 指针 ， 这 是 一 个 不 代表 通常 情况 的 小 数字 。 键 值 为 整数 。 图 13-21 所 示 为 一 个 完全 使 用 的 叶 
结 点 。 其 中 有 三 个 键 值 37、81 和 95。 前 三 个 指针 指向 具有 这 些 键 值 的 记录 。 而 最 后 一 个 指针 ， 
指向 右边 键 值 大 于 它 的 下 一 个 叶 结 点 ， 这 正 是 叶 结 点 中 通常 的 情况 。 如 果 该 叶 结 点 是 序列 中 的 


最 后 一 个 ， 则 该 指针 为 空 。 







指向 键 值 指向 键 值 指向 键 值 指向 键 值 
K<57 57SK<81 81<K< 95 K>95 


图 13-22 典型 的 B 树 内 部 结 点 
O 从 技术 上 来 讲 ， 整 个 B 树 的 块 只 有 一 个 指针 也 是 可 能 的 ， 因 为 它 可 能 是 只 有 一 个 记录 的 数据 文件 的 索引 。 在 这 


种 情况 下 ， 整 个 B 树 既是 根 块 又 是 叶 块 ， 且 这 个 块 只 有 一 个 键 值 和 一 个 指针 。 在 下 面 的 描述 中 我 们 忽 路 这 种 平 
凡 的 情况 。 





— 
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叶 结 点 不 必 全 部 充满 ， 但 在 我 们 这 个 例子 中 , ”= 3， 故 叶 结 点 至 少 要 有 两 个 键 -指针 对 。 
也 就 是 说 ， 图 13-21 中 的 键 值 93 和 第 三 个 指针 可 以 没有 ， 该 指针 标 有 “至 键 值 为 95 的 记录 ”。 

图 13-22 所 示 为 一 个 典型 的 内 部 结 点 。 其 中 有 三 个 键 值 ， 与 我 们 在 叶 结 点 的 例子 中 所 选 的 
一 样 : 57、81 和 95。。 该 结 点 中 还 有 四 个 指针 。 第 一 个 指针 指向 B 树 的 一 部 分 ， 通 过 它 我 们 只 
能 到 达 键 值 小 于 第 一 个 键 值 即 57 的 那些 记录 。 第 二 个 指针 通 向 键 值 介 于 该 B 树 块 第 一 个 键 值 和 
第 二 个 键 值 之 间 的 那些 记录 ， 第 三 个 指针 对 应 键 值 介 于 该 块 第 二 个 键 值 和 第 三 个 键 值 之 间 的 那 
些 记录 ， 第 四 个 指针 将 我 们 引 向 键 值 大 于 该 块 中 第 三 个 键 值 的 那些 记录 。 

同 叶 结 点 的 例子 一 样 ， 内 部 结 点 的 键 和 指针 模 也 没有 必要 全 部 占用 。 不 过 ， 当 n=3 时 ,一 
个 内 部 结 点 至 少 要 出 现 一 个 键 和 两 个 指针 。 元 素 缺 失 最 极端 的 情形 就 是 键 值 只 有 57， 而 指针 也 
仅 使 用 前 两 个 ， 在 这 种 情况 下 ， 第 一 个 指针 对 应 于 小 于 57 的 键 值 ， 而 第 二 个 指针 对 应 于 大 于 等 
于 57 的 键 值 。 口 


例 13.21 图 13-23 所 示 为 一 棵 完整 的 三 层 B 树 9; 其 中 使 用 例 13.20 中 所 描述 的 结 点 。 我 们 
假定 数据 文件 的 记录 的 键 是 2~47 之 间 的 所 有 素数 。 注 意 ， 这 些 值 在 叶 结 点 中 按 顺 序 出 现 一 次 。 
所 有 叶 结 点 都 有 两 个 或 3 个 键 -指针 对 ， 还 有 一 个 指向 序列 中 下 一 叶 结 点 的 指针 。 当 我 们 从 左 到 
右 去 看 叶 结 点 时 ， 所 有 键 都 是 排 好 序 的 。 

根 结 点 仅 有 两 个 指针 ， 恰 好 是 允许 的 最 小 数目 ， 尽 管 至 多 可 有 4 个 指针 。 根 结 点 中 的 某 个 
键 将 通过 第 一 个 指针 访问 到 的 键 值 与 通过 第 二 个 指针 访问 到 的 键 值 分 隔 开 来 。 也 就 是 说 ， 不 超 
过 12 的 键 值 可 通过 根 结 点 的 第 一 个 子 树 找到 ; 大 于 等 于 13 的 键 值 可 通过 第 二 个 子 树 找到 。 





图 13-23 BH 


如 果 我 们 看 根 结 点 的 第 一 个 具有 键 值 7 的 子 结 点 ， 会 发 现 它 有 两 个 指针 ， 一 个 通 向 小 于 7 
的 键 ， 而 另 一 个 通 向 大 于 等 于 7 的 键 。 注 意 ， 该 结 点 的 第 二 个 指针 只 能 使 我 们 找到 键 7 和 11， 
而 非 所 有 大 于 等 于 7 的 键 ， 比 如 键 13 ( 虽然 我 们 可 以 通过 叶 结 点 中 指向 下 一 个 块 的 指针 找到 那 
些 更 大 的 键 )。 

最 后 ， 根 结 点 的 第 二 个 子 结 点 的 4 个 指针 槽 都 被 使 用 。 第 一 个 指针 将 我 们 引 向 一 些 键 值 小 
于 23 的 键 ， 即 13、17 和 19。 第 二 个 指针 将 我 们 引 向 键 值 大 于 等 于 23 而 小 于 31 的 所 有 键 ; 第 三 个 


日 虽然 键 值 一 样 ， 但 图 13-21 所 示 的 叶 结 点 与 图 13-22 所 示 的 内 部 结 点 之 间 并 没有 什么 联系 。 事 实 上， 它们 不 可 能 
出 现在 同一 棵 B 树 中 。 


O 记 住 本 节 讨 论 的 所 有 B 树 都 是 B+ 树 ， 但 在 以 后 提 到 时 我 们 将 省 略 “+” 号 。 
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指针 将 我 们 引 向 键 值 大 于 等 于 31 而 小 于 43 的 所 有 键 ; 而 第 四 个 指针 将 我 们 引 向 一 些 键 值 大 于 等 
于 43 的 键 〈 在 这 个 例子 中 ， 是 所 有 的 键 )。 口 


13.3.2 B 树 的 应 用 ` 

B 树 是 用 来 建立 索引 的 一 种 强 有 力 的 工具 。 它 的 叶 结 点 上 指向 记录 的 一 系列 指针 可 以 起 到 
我 们 在 13.1 节 和 13.2 节 学 过 的 任何 一 种 索引 文件 中 指针 序列 的 作用 。 下 面 是 一 些 实例 : 

1. B 树 的 查找 键 是 数据 文件 的 主键 ， 且 索引 是 稠密 的 。 也 就 是 说 ， 叶 结 点 中 为 数据 文件 的 
每 一 个 记录 设 有 一 个 键 、 指 针对 。 该 数据 文件 可 以 按 主 键 排序 ， 也 可 以 不 按 主键 排序 。 

2. 数据 文件 按 主键 排序 ， 且 了 B 树 是 稀疏 索引 ， 在 叶 结 点 中 为 数据 文件 的 每 个 块 设 有 一 个 键 、 
指针 对 。 

3. 数据 文件 按 非 键 属性 排序 ， 且 该 属性 是 B 树 的 查找 键 。 叶 结 点 中 为 数据 文件 里 出 现 的 每 
个 属性 值 K 设 有 一 个 键 、 指 针对 ， 其 中 指针 指向 排序 键 值 为 K 的 记录 中 的 第 一 个 。 

B 树 变 体 的 另 一 些 应 用 允许 叶 在 结 点 上 查找 键 重复 出 现 。“。 图 13-24 所 示 即 为 这 样 一 棵 B 树 。 
这 一 扩展 类 似 于 我 们 在 13.1.5 节 讨论 的 带 重复 键 的 索引 。 

如 果 我 们 确实 允许 查找 键 的 重复 出 现 ， 就 需要 稍微 修改 对 内 部 结 点 中 键 的 涵义 的 定义 ， 我 
们 曾 在 13.3.1 节 中 讨论 过 这 一 定义 。 现 在 ， 假 定 一 个 内 部 结 点 的 键 为 Ki, Ko, ©, Ka 那么 KK 将 
是 从 第 i+1 个 指针 所 能 访问 的 子 树 中 出 现 的 最 小 新 键 。 这 里 的 “新 ”， 是 指 在 树 中 第 i+1 个 指针 
所 指向 的 子 树 以 左 没 有 出 现 过 K;， 但 Kk 在 第 i+1 个 指针 指向 的 子 树 中 至 少 出 现 一 次 。 注 意 ， 在 某 
些 情 况 下 可 能 不 存在 这 样 的 键 ， 这 时 天 可 以 为 室 ， 但 它 对 应 的 指针 仍然 需要 ， 因 为 它 指向 树 中 
碰巧 只 有 一 个 键 值 的 那个 重要 的 部 分 。 
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图 13-24 一 棵 带 重复 键 的 B 树 


例 13.22 图 13-24 所 示 的 B 树 类 似 于 图 13-23 ,但 有 重复 键 值 。 具 体 来 说 : 键 11 已 被 键 13 
BR; 键 19、29 和 31 全 部 被 键 23 蔡 换 。 这 样 就 造成 根 结 点 的 键 是 17 而 不 是 13。 原 因 在 于 ， 虽 
然 13 是 第 二 个 子 树 根 结 点 中 最 小 的 键 ， 但 它 不 是 该 子 树 的 新 键 ， 因 为 它 在 根 结 点 的 第 一 个 子 
树 中 出 现 过 。 

我 们 还 需要 对 根 结 点 的 第 二 个 子 结 点 做 些 改变 。 第 二 个 键 改 为 37， 因 为 它 是 第 三 个 子 结 点 
(从 左 数 第 五 个 叶 结 点 ) 的 第 一 个 新 键 。 最 有 趣 的 是 ， 第 一 个 键 现在 为 空 ， 因 为 第 二 个 子 结 点 
(第 四 个 叶 结 点 ) 根本 就 没有 新 键 。 换 言 之 ， 如 果 查 找 某 个 键 且 到 达 根 结 点 的 第 二 个 子 结 点 ， 


© 记 住 ， 如 果 “ 键 ”必须 惟一 ， 那 么 从 这 个 意义 上 来 说 “查找 键 ”不 一 定 是 “ 键 "。 
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我 们 不 会 从 该 子 结 点 的 第 二 个 子 结 点 起 开始 查找 。 若 是 查找 23 或 其 他 更 小 的 值 ， 我 们 应 该 从 它 
的 第 一 个 子 结 点 起 开始 查找 ， 在 那里 我 们 将 找到 所 需 的 记录 ( 如 果 是 17 )， 或 找到 所 需 的 记录 
的 第 一 个 《如 果 是 23 )。 
注意 : 
。 查找 13 时 我 们 不 会 到 达 根 结 点 的 第 二 个 子 结 点 ， 而 是 直接 到 第 一 个 子 结 点 中 去 查找 。 
“如 果 查 找 介 于 24~36 之 间 的 某 个 键 ， 我 们 会 直接 到 第 三 个 叶 结 点 中 查找 。 但 当 我 们 连 一 
个 所 需 键 值 都 找 不 到 时 ， 我 们 就 知道 不 必 继续 往 右 查找 。 举 例 来 说 ， 如 果 叶 结 点 中 存在 
键 24， 它 要 么 在 第 四 个 叶 结 点 上 ， 这 时 根 结 点 的 第 二 个 子 结 点 中 的 空 键 将 会 被 24 替 代 ; 
要 人 么 在 第 五 个 叶 结 点 上 ， 这 时 根 结 点 的 第 二 个 子 结 点 的 键 37 将 被 24 替 代 。 口 


13.3.3 B 树 中 的 查找 

我 们 现在 再 回 到 最 初 的 假定 ， 即 叶 结 点 中 没有 重复 键 。 同 时 我 们 还 假设 B 树 是 一 个 密集 索 
引 ， 因 而 数据 文件 中 的 每 一 个 查找 键 也 将 出 现在 某 个 叶 结 点 上 。 这 个 假定 可 以 简化 对 B 树 操作 
的 讨论 ， 但 该 假定 对 这 些 操 作 来 说 并 非 必 不 可 少 。 特 别 地 ， 稀 朴 索引 的 修改 与 我 们 在 13.1.3 节 
中 介绍 过 的 顺序 文件 上 的 索引 修改 相 类 似 。 

假设 我 们 有 一 个 B 树 索引 并 且 想 找 出 查找 键 值 为 玉 的 记录 。 我 们 从 根 到 叶 递 归 查 找 ， 查 找 
WEA: 

基础 : 若 处 于 叶 结 点 ， 我 们 就 在 其 键 值 中 查找 。 若 第 i 个 键 是 上， 则 第 ;个 指针 可 让 我 们 找 
到 所 需 记 录 。 

归纳 ; 若 处 于 某 个 内 部 结 点 ， 且 它 的 键 为 Ki, Koa, 有， 则 依据 在 13.3.1 节 中 给 出 的 规则 来 
决定 下 一 步 该 对 此 结 点 的 哪个 子 结 点 进行 查找 。 也 就 是 说 ， 只 有 一 个 子 结 点 可 使 我 们 找到 具有 
键 天 的 叶 结 点 。 如 果 天 < KK， 则 为 第 一 个 子 结 点 ;如 果 KSK. R, 则 为 第 二 个 子 结 点 ， 等 等 。 
在 这 一 子 结 点 上 递归 地 运用 查找 过 程 。 

例 13.23 ”假定 有 一 棵 如 图 13-23 所 示 的 B 树 ， 且 我 们 想 找 到 查找 键 为 40 的 记录 。 我 们 从 根 
结 点 开始 ， 其 中 有 一 个 键 13。 因 为 13 生 40， 我 们 就 沿 着 它 的 第 二 个 指针 来 到 包含 键 为 232、31 和 
43 的 第 二 层 结 点 。 

在 这 个 结 点 中 ,我 们 发 现 31 和 40 < 43， 因 而 我 们 沿 着 第 三 个 指针 来 到 包含 31、37 和 41 的 叶 
结 点 ， 如 果 数 据 文件 中 有 键 值 为 40 的 记录 ， 我 们 就 应 该 在 这 个 叶 结 点 中 找到 键 40。 既 然 我 们 没 
有 发 现 键 40， 就 可 以 断定 在 底层 的 数据 块 中 没有 键 值 为 40 的 记录 。 

注意 ， 要 是 查找 键 为 37 的 记录 ， 我 们 所 做 的 决定 都 和 上 面 一 样 ， 但 当 到 达 叶 结 点 时 ， 我 们 
将 找到 键 37。 因 为 它 是 叶 结 点 中 的 第 二 个 键 ， 因 此 我 们 沿 着 第 二 个 指针 可 以 找到 键 值 为 37 的 数 
据 记 录 。 口 


13.3.4 范围 查询 

B 树 不 仅 对 搜寻 单个 查找 键 的 查询 很 有 用 ， 而 且 对 查找 键 值 在 某 个 范围 内 的 查询 也 很 有 用 。 
一 般 来 说 ， 范 围 查询 在 WHERE 子 句 中 有 一 个 项 ， 该 项 将 查找 键 与 单个 值 或 多 个 值 相 比较 ， 可 用 
除 “=” 和 “<>” 之 外 的 其 他 比较 操作 符 。 使 用 查找 键 属性 K 的 范围 查询 例子 如 下 : 


SELECT * 
FROM R 
WHERE R.k > 40; 


或 者 
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SELECT * 
FROM R 
WHERE R.k >= 10 AND R.k <= 25; 


如 果 想 在 B 树 叶 结 点 上 找 出 在 范围 [a,b] 之 间 的 所 有 键 值 ， 我 们 通过 一 次 查找 来 找 出 键 a。 
不 论 它 是 否 存在 ， 我 们 都 将 到 达 可 能 出 现 a 的 叶 结 点 ， 然 后 在 该 叶 结 点 中 查找 键 a 或 大 于 a 
的 那些 键 。 我 们 所 找到 的 每 个 这 样 的 键 都 有 一 个 指针 指向 相应 的 记录 ， 这 些 记录 的 键 在 所 需 
的 范围 内 。 

如 果 我 们 没有 发 现 大 于 的 键 ， 我 们 就 使 用 当前 叶 结 点 指向 下 一 个 叶 结 点 的 指针 ， 并 继续 
检查 键 和 跟踪 相应 指针 ， 直 到 我 们 

1. 找到 一 个 大 于 4 的 键 ， 这 时 我 们 停止 查找 ; 或 者 

2. 到 了 叶 结 点 的 末尾 ， 在 这 种 情况 下 ， 我 们 到 达 下 一 个 叶 结 点 且 重 复 这 个 过 程 。 

上 面 的 查找 算法 当 b 为 无 穷 时 也 有 效 ; 即 项 中 只 有 一 个 下 界 而 没有 上 界 。 在 这 种 情况 下 ， 我 们 
查找 从 键 a 可 能 出 现 的 叶 结 点 开始 到 最 后 一 个 叶 结 点 的 所 有 叶 结 点 。 如 果 a 为 - w( 即 项 中 有 
一 个 上 界 而 没 下 界 )， 那么 ， 在 查找 “ 负 无 穷 ” 时 ,不 论处 于 B 树 的 哪个 结 点 ， 我 们 总 被 引 向 
该 结 点 的 第 一 个 子 结 点 ， 即 最 终 将 找到 第 一 个 叶 结 点 。 然 后 按 上 述 过 程 查找 ， 仅 在 超过 键 bp 时 
停止 查找 。 

例 13.24 ”假定 我 们 有 一 棵 如 图 13-23 所 示 的 B 树 ， 给 定 查 找 范围 是 ( 10，25 )。 我 们 查找 键 
10， 找 到 第 二 个 叶 结 点 ， 它 的 第 一 个 键 小 于 10， 但 第 二 个 键 11 大 于 10。 我 们 沿 着 它 的 相应 指针 
找到 键 为 11 的 记录 。 

因为 第 二 个 叶 结 点 中 已 没有 其 他 的 键 , 我 们 沿 着 链 找 到 第 三 个 叶 结 点 ， 其 键 为 13，17 和 19。 
这 些 键 都 小 于 或 等 于 25， 因 此 我 们 沿 着 它们 的 相应 指针 检索 具有 这 些 键 的 记录 。 最 后 ， 移 到 第 
四 个 时 结 点 ， 在 那里 我 们 找到 键 23。 而 该 叶 结 点 的 下 一 个 键 29 超 过 了 25， 因 而 已 完成 我 们 的 查 
Ko RH, ， 我 们 就 检索 出 了 键 11 到 键 23 的 五 个 记录 。 口 


13.3.5 B 树 的 插入 
当 我 们 考虑 如 何 插入 一 个 新 键 到 B 树 时 ， 就 会 发 现 B 树 优 于 13.1.4 节 介绍 的 简单 多 级 索引 的 
一 些 地 方 。 对 应 的 记录 可 使 用 13.1 节 中 介绍 的 任何 方法 插入 到 建 有 B 树 索引 的 数据 文件 中 ， 这 
时 ,我 们 只 考虑 B 树 如 何 相 应 地 修改 。 插 入 原则 上 是 递归 的 ; 
“ 设法 在 适当 的 叶 结 点 中 为 新 键 找到 空闲 空间 ， 如 果 有 的 话 ， 就 把 键 放 在 那里 。 
“ 如果 在 适当 的 叶 结 点 中 没有 空间 ， 就 把 该 叶 结 点 分 裂 成 两 个 ， 并 且 把 其 中 的 键 分 到 这 两 
个 新 结 点 中 ， 使 每 个 新 结 点 有 一 半 或 刚好 超过 一 半 的 键 。 
“ 某 一 层 的 结 点 分 裂 在 其 上 一 层 看 来 ， 相 当 于 是 要 在 这 一 较 高 的 层次 上 插 和 人 一 个 新 的 键 - 指 
针对 。 因 此 ， 我 们 可 以 在 这 一 较 高 层次 上 逆 归 地 使 用 这 个 揪 人 策略 .如果 有 空间 ， 则 揪 
入 ; 如 果 没 有 ， 则 分 裂 这 个 父 结 点 且 继 续 向 树 的 高 层 推进 。 
“ 例外 的 情况 是 ， 如 果 试 图 插入 键 到 根 结 点 中 并 且 根 结 点 没有 空间 ， 那 么 我 们 就 分 裂 根 结 
点 成 两 个 结 点 ， 且 在 更 上 一 层 创建 一 个 新 的 根 结 点 。 这 个 新 的 根 结 点 有 两 个 刚 分 裂 成 的 
结 点 作为 它 的 子 结 点 。 回 想 一 下 ,不管 ( 结 点 中 键 的 模 数 ) 多 大 ， 根 结 点 总 是 允许 只 有 
一 个 键 和 两 个 子 结 点 。 
当 我 们 分 裂 结 点 并 在 其 父 结 点 中 插入 时 ， 需 要 小 心地 处 理 键 。 首 先 ， 假 定 N 是 一 个 容量 为 n 
个 键 的 叶 结 点 ， 且 我 们 正 试图 给 它 插入 第 (n+1 ) 个 键 和 它 相 应 的 指针 。 创 建 一 个 新 结 点 M， 
该 结 点 将 成 为 N 结 点 的 兄弟 ， 紧 挨 在 N 的 右边 。 按 键 排 序 顺序 的 前 [w+D/23 个 键 -指针 对 保留 
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在 结 点 N 中 ; 而 其 他 的 键 -指针 对 移 到 结 点 W 中 ， 注 意 ， 结 点 M 和 结 点 N 中 都 有 足够 数量 的 键 - 指 
针对 ， 即 至 少 有 |(e+D/2| 个 这 样 的 键 -指针 对 。 

现在 ， 假 定 N 是 一 个 容量 为 个 键 和 n+1 个 指针 的 内 部 绪 点 ， 并 且 由 于 下 层 结 点 的 分 裂 ，N 
正好 又 被 分 配给 第 (n+2 ) 个 指针 。 我 们 执行 下 列 步骤 : 

1. 创建 一 个 新 结 点 M， 它 将 是 N 结 点 的 兄弟 ， 且 紧 挨 在 N 的 右边 。 

2. 按 排序 顺序 将 前 [n+2)/2 个 指针 留 在 结 点 a 中 ， 而 把 剩 下 的 |(n+2)/2 个 指针 移 到 结 点 
M 中 。 

3. 前 fx/21 个 键 保留 在 结 点 N 中 ， 而 后 |n/2 | 个 键 移 到 结 点 M 中 。 注 意 ， 在 中间 的 那个 键 总 
是 被 留 出 来 ， 它 既 不 在 结 点 N 中 也 不 在 结 点 M 中 。 这 一 留 出 的 键 K 指 明 通 过 M 的 第 一 个 子 结 点 
可 访问 到 最 小 键 。 尽 管 K 不 出 现在 N 中 也 不 出 现在 M 中 ， 但 它 代表 通过 M 能 到 达 的 最 小 键 值 ， 
从 这 种 意义 上 来 说 它 与 M 相 关联 。 因 此 ，K 将 会 被 结 点 N 和 M 的 父 结 点 用 来 划分 在 这 两 个 结 点 
之 间 的 查找 。 

例 13.25 ”让 我 们 在 图 13-23 所 示 的 B 树 中 插入 键 40。 根 据 13.3.3 节 中 的 查找 过 程 找 到 插入 的 
叶 结 点 。 如 例 13.23 一 样 ， 我 们 找到 第 五 个 叶 结 点 来 持 入。 由 于 n=3， 而 该 叶 结 点 现在 有 四 个 
键 -指针 对 : 31、37、40 和 41， 所 以 我 们 需要 分 裂 这 个 叶 结 点 。 首 先是 创建 一 个 新 结 点 ， 并 把 
两 个 最 大 的 键 40 和 41 以 及 它们 的 指针 移 到 新 结 点 。 图 13-25 表 示 了 这 个 分 列 。 





13-25 键 40 插 入 之 初 


注意 ， 虽 然 我 们 现在 把 这 些 结 点 显示 在 四 排 ， 但 对 树 而 言 还 是 只 有 三 层 ， 而 七 个 叶 结 点 
占据 了 图 中 的 后 两 排 。 这 些 叶 结 点 通过 各 自 的 最 后 一 个 指针 链接 起 来 ， 仍 形成 了 一 条 从 左 到 
右 的 链 。 

我 们 现在 必须 插入 一 个 指向 新 叶 结 点 (具有 键 40 和 41 的 那个 结 点 ) 的 指针 到 它 上 面 的 那个 
结 点 《具有 键 23、31 和 43 的 那个 结 点 )， 还 必须 把 该 指针 与 键 40 关 联 起 来 ， 因 为 键 40 是 通过 新 
叶 结 点 可 访问 到 的 最 小 键 。 很 不 巧 , 分 裂 结 点 的 父 结 点 已 满 , 它 没有 空间 来 存放 别 的 键 或 指针 。 
因此 ， 它 也 必须 分 裂 。 

我 们 开始 先 找到 指向 后 五 个 叶 结 点 的 指针 和 表示 这 些 叶 结 点 中 后 四 个 的 最 小 键 的 键 列表 。 
也 就 是 说 ,我 们 有 指针 Pl、P,、P;、Ps 和 Ps 指向 这 些 叶 结 点 ,它们 的 最 小 键 分 别 是 13、23、31、 
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40 和 43， 并 且 我 们 用 键 序列 23、31、40 和 43 来 分 隔 这 些 指针 。 前 三 个 指针 和 前 两 个 键 保留 在 被 
分 裂 的 内 部 结 点 中 ; 而 后 两 个 指针 和 后 一 个 键 放 到 一 个 新 结 点 中 。 剩 下 的 键 是 40， 表 示 通 过 新 
结 点 可 访问 到 最 小 键 。 

插入 键 40 后 的 结果 如 图 13-26 所 示 。 根 结 点 现在 有 三 个 子 结 点 ， 最 后 两 个 是 分 裂 的 内 部 结 
点 。 注 意 , 键 40 标 志 着 通过 分 裂 结 点 的 第 二 个 子 结 点 可 访问 到 的 最 小 键 , 它 被 安置 在 根 结 点 中 ， 
用 来 区 分 根 结 点 的 第 二 个 子 结 点 和 第 三 个 子 结 点 的 键 。 口 





图 13-26 键 40 插 人 完成 后 


13.3.6 ”B 树 的 删除 

如 果 我 们 要 删除 一 个 具有 给 定 键 K 的 记录 ， 必 须 先 定位 该 记录 和 它 在 B 树 叶 结 点 中 的 键 - 
指针 对 。 正 如 13.3.3 节 所 述 ， 这 部 分 删除 过 程 主要 是 查找 。 然 后 我 们 删除 记录 本 身 并 从 B 树 中 
删除 它 的 键 -指针 对 。 

如 果 发 生 删 除 的 B 树 结 点 在 删除 后 至 少 还 有 最 小 数目 的 键 和 指针 ， 那 就 不 需要 再 做 什么 e 。 
但 是 ， 结 点 有 可 能 在 删除 之 前 正好 具有 最 小 的 充满 度 ， 因 此 在 删除 后 ， 对 键 数目 的 约束 就 被 韦 
背 了 。 这 时 ， 我 们 需要 为 这 个 键 的 数目 仅 次 于 最 小 数目 的 结 点 N 做 下 面 两 件 事 之 一 ， 其 中 有 一 
种 情况 需要 沿 着 树 往 上 递归 地 删除 。 

1. 如 果 与 结 点 N 相 邻 的 兄弟 中 有 一 个 键 和 指针 超过 最 小 数目 ， 那 么 它 的 一 个 键 -指针 对 可 
以 移 到 结 点 N 中 并 保持 键 的 顺序 。 结 点 N 的 父 结 点 的 键 可 能 需要 调整 以 反映 这 个 新 的 情况 。 
例如 ， 如 果 结 点 NN 的 右边 兄弟 M 可 提供 一 个 键 和 指针 ， 那 么 从 结 点 M 移 到 结 点 N 的 键 一 定 是 
结 点 M 的 最 小 键 。 在 结 点 M 和 结 点 N 的 父 结 点 处 有 一 个 表示 通过 M 可 访问 到 的 最 小 键 ， 该 
键 必须 被 提升 。 

2. 最 困难 的 情况 是 当 相 邻 的 两 个 兄弟 中 没有 一 个 能 提供 额外 的 键 给 结 点 NM 时。 不过， 在 这 
种 情况 下， 我们 有 结 点 Y 和 它 的 一 个 兄弟 结 点 M， 其 中 一 个 的 键 数 少 于 最 小 数 ， 而 另 一 个 的 键 
数 刚好 为 最 小 数 。 因 此 ， 它 们 合 在 一 起 也 没有 超过 单个 结 点 所 允许 的 键 和 指针 数 这 就 是 为 什 


O 如 果 具 有 时 结 点 中 最 小 键 的 数据 记录 被 删除 ， 那 么 我 们 可 选择 在 该 时 结 点 的 某 个 祖先 上 将 某 个 合适 的 键 增 大 ， 
但 不 一 定 非 这 样 做 不 可 ; 所 有 的 查找 仍 能 找到 正确 的 叶 结 点 。 
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么 B 树 结 点 最 小 允许 的 充满 程度 为 一 半 的 原因 )。 我 们 合并 这 两 个 结 点 ， 实 际 上 就 是 删除 它们 
中 的 一 个 。 我 们 需要 调整 父 结 点 的 键 ， 然 后 删除 父 结 点 的 一 个 键 和 指针 。 如 果 父 结 点 现在 足够 
满 ， 那 我 们 就 完成 了 删除 操作 ， 否 则 ， 我 们 需要 在 父 结 点 上 递归 地 运用 这 个 删除 算法 。 

例 13.26 ”让 我 们 从 图 13-23 所 示 最 初 的 B 树 开始 ， 即 在 键 40 插 和 之前。 假定 我 们 删除 键 7。 
该 键 在 第 二 个 叶 结 点 中 被 找到 。 我 们 删除 该 键 、 该 键 对 应 的 指针 以 及 指针 指向 的 记录 。 

不 巧 的 是 ， 第 二 个 叶 结 点 现在 只 剩 下 一 个 键 ， 而 我 们 需要 每 个 叶 结 点 至 少 有 两 个 键 。 但 该 
结 点 左边 的 兄弟 ， 即 第 一 个 叶 结 点 ， 有 一 个 额外 的 键 -指针 对 ， 这 就 帮 了 我 们 的 大 忙 。 我 们 因 
此 可 以 将 它 的 最 大 键 以 及 它 的 相应 指针 移 到 第 二 个 叶 结 点 。 产 生 的 B 树 如 图 13-27 所 示 。 注 意 ， 
因为 第 二 个 叶 结 点 的 最 小 键 现 在 是 5， 所 以 前 两 个 叶 结 点 的 父 结 点 的 键 从 7 改 为 5。 





图 13-27 键 7 的 删除 


下 一 步 ， 假 定 我 们 删除 键 11。 这 个 删除 对 第 二 个 叶 结 点 产生 同样 的 影响 ， 又 一 次 把 它 的 键 
数 减 少 到 低 于 最 小 数 。 不 过 ， 这 次 我 们 不 能 从 第 一 个 叶 结 点 借 键 ， 因 为 后 者 的 键 数 也 到 了 最 小 
数 。 另 外 ， 它 的 右边 没有 兄弟 ， 也 就 无 处 可 借 ? 。 这 样 ， 我 们 需要 合并 第 二 个 叶 结 点 和 它 的 兄 
弟 ， 即 第 一 个 时 结 点 。 

前 两 个 叶 结 点 剩 下 的 三 个 键 -指针 对 可 以 放 在 一 个 叶 结 点 中 ， 因 此 ， 我 们 把 键 5 移 到 第 一 个 
叶 结 点 并 删除 第 二 个 叶 结 点 。 父 结 点 中 的 键 和 指针 需要 进行 调整 ， 以 反映 它 的 子 结 点 的 新 情 
况 ; 具体 地 说 ， 它 的 两 个 指针 被 换 成 一 个 指针 (指向 剩 下 的 时 结 点 ) 且 键 5 不 再 有 用 ， 也 被 删 
除 。 现 在 的 情况 如 图 13-28 所 示 。 





图 13-28 键 1 删除 之 初 


O HE: 它 右边 的 键 为 13、17 和 19 的 叶 结 点 不 是 它 的 兄弟 ， 因 为 它们 有 不 同 的 父 结 点 。 不 论 怎样 ， 我 们 还 是 
可 以 从 那个 结 点 “ 借 ” 键 的 ， 但 那样 的 话 ， 调 整 键 的 算法 将 涉及 整个 树 ， 因 而 使 算法 变 得 更 复杂 。 我 们 把 
这 一 改进 留 作 习题 。 
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但 是 ， 叶 结 点 的 删除 给 它 的 父 结 点 即 根 结 点 的 左 子 结 点 带 来 了 负面 的 影响 。 正 如 我 们 在 图 
13-28 中 所 看 到 的 那样 ， 该 结 点 现在 没有 键 且 只 剩 一 个 指针 。 因 此 ， 我 们 试图 从 与 它 相 邻 的 兄 
弟 那里 获得 一 个 额外 的 键 和 指针 。 这 一 次 ， 我 们 磁 到 容易 的 情况 ， 因 为 根 结 点 的 另 一 个 子 结 点 
可 以 提供 它 的 最 小 键 和 一 个 指针 。 

变化 如 图 13-29 所 示 。 指 向 键 为 13、17 和 19 的 叶 结 点 的 指针 从 根 结 点 的 第 二 个 结 点 移 到 了 
它 的 第 一 个 子 结 点 。 我 们 还 修改 了 内 部 结 点 的 一 些 键 。 键 13 原 来 位 于 根 结 点 且 表示 通过 那个 被 
转移 的 指针 可 访问 到 的 最 小 键 ， 现 在 需要 放 到 根 结 点 的 第 一 个 子 结 点 中 。 另 一 方面 ， 键 23 原 来 
用 来 区 分 根 结 点 第 二 个 子 结 点 的 第 一 个 和 第 二 个 子 结 点 ， 现 在 表示 通过 根 结 点 第 二 个 子 结 点 可 
访问 到 最 小 键 ， 因 此 它 被 放 到 根 结 点 中 。 口 





图 13-29 键 11 删 除 完成 后 


13.3.7 B 树 的 效率 

B 树 使 我 们 能 实现 记录 的 查找 、 插 入 和 删除 ， 而 每 个 文件 操作 只 需 很 少 的 磁盘 IO。 首 先 我 
们 注意 到 ， 如 果 每 个 块 容纳 的 键 数 x 相当 大 ， 比 如 10 或 更 大 ， 那 么 ， 分 裂 或 合并 块 的 情况 将 会 
很 少 。 此 外 ， 这 种 操作 必需 时 ， 绝 大 多 数 时 候 都 被 局 限 在 叶 结 点 ， 因 此 只 有 两 个 叶 结 点 和 它们 
的 父 结 点 受到 影响 。 所 以 ， 我 们 基本 上 可 以 忽略 B 树 重组 的 UO 开 销 。 

然而 ， 每 次 按 给 定 查找 键 值 查找 记录 都 需要 我 们 从 根 结 点 一 直 访 问 到 叶 结 点 以 找到 指向 记 
录 的 指针 。 因 为 我 们 只 读 B 树 的 块 ， 所 以 磁盘 1/O 数 将 是 B 树 的 层 数 加 上 一 次 ( 对 查找 而 言 ) 或 
两 次 (对 插入 或 删除 而 言 ) 处 理 记录 本 身 的 磁盘 IO。 我 们 肯定 会 这 样 问 ，B 树 到 底 有 多 少 层 ? 
对 于 典型 的 键 、 指 针 和 块 大 小 来 说 ， 三 层 就 足够 了 ， 除 非 数 据 库 极 大 。 因 此 ， 我 们 一 般 取 3 作 
为 B 树 的 层 数 。 下 面 的 例子 说 明了 其 原因 。 

例 13.27 ”回忆 一 下 我 们 在 例 13.19 中 的 分 析 ， 我 们 当时 确定 每 块 可 容纳 示例 数据 的 340 个 
键 -指针 对 。 假 若 一 般 的 块 充满 度 介 于 最 大 和 最 小 中 间 ， 即 一 般 的 块 有 255 个 指针 。 一 个 根 结 点 ， 
有 255 个 子 结 点 ， 有 2552=65 025 个 叶 结 点 ; 在 这 些 叶 结 点 中 ， 我 们 可 以 有 2553， 即 约 1.66x 107 
个 指向 记录 的 指针 。 也 就 是 说 ， 记 录 数 小 于 等 于 1.66 x 10? 的 文件 都 可 以 被 3 层 的 B 树 容纳 。 O 


不 过 ， 对 于 每 次 查找 ， 我 们 甚至 可 以 通过 B 树 用 比 3 次 还 少 的 磁盘 1O 来 实现 。B 树 根 结 点 
块 是 永久 地 缓存 在 主 存 中 的 绝 佳 选 择 。 如 果 这 样 ， 那 么 每 次 查找 3 层 的 B 树 只 需 两 次 磁盘 读 操 
作 。 实 际 上 ， 在 某 些 情况 下 ， 把 B 树 的 第 二 层 结 点 块 保存 在 缓冲 区 中 也 是 合理 的 。 这 样 ，B 树 
的 查找 就 减少 到 一 次 磁盘 IO 再 加 上 处 理 数据 文件 本 身 所 需 的 磁盘 IO。 
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我 们 是 否 该 从 B 树 中 删除 ? 
有 一 些 B 树 的 实现 根本 不 对 删除 做 修复 。 如 果 叶 结 点 键 和 指针 太 少 ， 这 种 情况 也 允许 
保留 。 其 基本 理由 在 于 ， 大 多 数 文件 的 发 展 比较 平衡 ， 尽 管 有 时 可 能 出 现 使 键 数 刚 好 少 
于 最 小 数 删 除 操作 。 但 该 叶 结 点 可 能 很 快 增长 并 且 再 次 达到 键 -指针 对 的 最 小 数 。 


此 外 ， 如 果 记 录 有 来 自 B 树 索引 外 的 指针 ， 那 么 ， 需 要 用 “删除 标记 ”来 赫 挠 记录 ， 
并 且 我 们 不 想 用 任何 方式 删除 B 树 中 的 指针 。 在 某 些 情况 下 ， 如 果 可 以 保证 所 有 对 删除 记 
录 的 访问 都 将 通过 B 树 ,我们 其 至 可 以 在 B 树 叶 结 点 中 指向 记录 的 指针 处 留 下 删除 标记 。 
这 样 ， 该 记录 的 空间 就 可 以 重新 使 用 。 





13.3.8 习题 

习题 13.3.1 ”假定 存储 块 能 放 10 个 记录 或 者 99 个 键 和 100 个 指针 ， 再 假定 B 树 结 点 的 平均 充 

满 程 度 为 70%; 即 有 69 个 键 和 70 个 指针 。 我 们 可 以 用 B 树 作为 儿 种 不 同 结构 的 一 部 分 。 对 

下 面 描述 的 每 种 结构 ， 确 定 :( 1 ) 1 000 000 个 记录 的 文件 所 需 的 总 块 数 ; (2 ) 检索 一 个 

给 定 键 值 的 记录 所 需 的 平均 磁盘 IO 数 。 可 以 假定 最 初 在 主 存 中 不 存在 任何 东西 ， 并 且 查 

反刍 是 记录 的 主键。 

* a) 数据 文件 是 按 查 找 键 排序 的 顺序 文件 ， 每 块 存放 10 个 记录 。B 树 为 稠密 索引 。 

b) 同 (a) 一 样 ， 但 组 成 数据 文件 的 记录 没有 特定 顺序 ; 每 块 存放 10 个 记录 。 

c) 同 (a) 一 样 ， 但 B 树 为 稀 朴 索引 。 

d B 树 的 叶 结 点 中 不 放 指 向 数据 记录 的 指针 ， 而 是 保存 记录 本 身 。 每 块 可 存放 10 个 记 
录 ， 但 平均 每 个 叶 结 点 的 充满 度 为 70%， 即 每 个 叶 结 点 存 人 7 个 记录 。 

e) 数据 文件 是 顺序 文件 ， 且 B 树 是 稀 朴 索引 ， 但 数据 文件 的 每 个 基本 块 有 一 个 溢出 块 。 
平均 来 讲 ， 基 本 块 是 满 的 ， 而 溢出 抉 只 半 满 。 不 过 ， 记 录 在 基本 块 和 溢出 块 中 没有 
特定 的 顺序 。 

习题 13.3.2 假设 查询 是 范围 查询 且 匹 配 的 记录 有 1000 个 ,在 这 种 情况 下 ， 重 做 习题 

13.3.1。 

习题 13.3.3 ”假定 指针 占 4 个 字 节 ， 而 键 占 12 个 字 节 ， 大 小 为 16 384 字 节 的 块 可 存放 多 少 个 

键 和 指针 ? 

习题 13.3.4”B 树 中 (1) 内 结 点 和 (2) 叶 结 点 的 键 和 指针 的 最 小 数目 在 下 列 情况 下 分 别 是 多 

少 ? 

* a) n= 10; 即 每 块 可 存放 10 个 键 和 11 个 指针 。 

b) n= 11; 即 每 块 可 存放 11 个 键 和 12 个 指针 。 
习题 13.3.5 在 图 13-23 中 执行 下 操作 ， 描 述 那些 引起 树 改 变 的 操作 所 带 来 的 变化 。 
a) 查找 键 值 为 41 的 记录 。 
b) 查找 键 值 为 40 的 记录 。 
c) 查找 键 值 在 20~30 之 间 的 所 有 记录 。 
d) 查找 键 值 小 于 30 的 所 有 记录 。 
e) 查找 键 值 大 于 30 的 所 有 记录 。 
f) 插 人 键 值 为 1 的 记录 。 
g) 插入 键 值 为 14~16 的 所 有 记录 。 
h) 删除 键 值 为 23 的 记录 。 


— 


* 
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i) 删除 键 值 大 于 等 于 23 的 所 有 记录 。 
习题 13.3.6 ”我 们 提 到 图 13-21 所 示 的 叶 结 点 和 图 13-22 所 示 的 内 部 结 点 不 可 能 出 现在 同一 
棵 B 树 中 。 解 释 其 原因 。 
习题 13.3.7 ” 当 在 B 树 中 允许 重复 键 值 时 ,我们 在 这 一 节 描 述 的 查找 、 插 入 和 删除 的 算法 
都 要 做 一 些 必要 的 修改 。 给 出 下 列 情况 所 需 进行 的 修改 : 
* a) 查找 。 

b) 插入 。 

c) 删除 。 
习题 13.3.8 在 例 13.26 中 我 们 提出 ， 如 果 使 用 更 复杂 的 维护 内 部 结 点 键 的 算法 ， 那 么 可 以 从 
右 (RE) 边 的 非 兄 弟 结 点 中 借 键 。 描 述 一 个 合适 的 算法 ， 它 可 以 通过 从 同 层 相 邻 结 点 中 
借 键 来 重新 达到 平衡 ， 而 不 管 这 些 相 邻 结 点 是 否 是 键 -指针 对 太 多 或 太 少 的 结 点 的 兄弟 结 点 。 
习题 13.3.9 ”如 果 我 们 使 用 这 一 节 例 子 中 的 3 个 键 和 4 个 指针 的 结 点 ， 当 数据 文件 中 记录 数 
如 下 时 分 别 有 多 少 不 同 的 B 树 : 
*! a) 6 个 记录 。 
! b) 10 个 记录 。 
! c) 15 个 记录 。 
习题 13.3.10 ”假定 我 们 的 B 树 结 点 可 存放 3 个 键 和 4 个 指针 ， 如 同 本 节 的 例子 一 样 。 再 假定 当 
我 们 分 裂 叶 结 点 时 ， 把 指针 分 成 2 和 2。 而 当 分 裂 内 部 结 点 时 ， 前 三 个 指针 到 第 一 个 ( 左 ) 结 
点 ,后 两 个 指针 到 第 二 个 ( 右 ) 结 点 。 我 们 从 指向 键 分 别 为 1、2 和 3 的 记录 的 指针 所 在 叶 结 
点 开始 ， 按 序 加 入 键 值 为 4，5，6，… 等 的 记录 。 在 插入 哪个 键 时 B 树 将 第 一 次 达到 四 层 ? 


! 习题 13.3.11 ”考虑 按 B 树 组 织 的 一 个 索引 。 叶 结 点 一 共 包 含 指向 N 个 记录 的 指针 ， 且 构成 


索引 的 每 个 块 有 m 个 指针 。 我 们 希望 选择 一 个 m 值 ， 使 在 具有 下 列 特征 的 特定 磁盘 上 查找 
时 间 最 短 : 
1) 读 一 给 定 块 到 内 存 的 时 间 大 致 为 70+0.05m 毫 秒 ， 其 中 70 豪 秒表 示 读 操作 的 寻 道 和 等 
待 的 时 间 ， 而 0.05m 毫 秒 是 传输 时 间 。 也 就 是 说 ， 随 着 m 的 增 大 ， 块 也 将 变 大 ， 因 
而 把 块 读 进 内 存 也 就 需要 更 多 的 时 间 。 
2) 一 旦 块 在 内 存 中 ， 可 用 二 分 查找 法 来 找到 正确 的 指针 ， 这 样 ， 在 内 存 中 处 理 一 个 块 
的 时 间 为 arblogzm 毫 秒 ， 其 中 a、b 为 常量 。 
3) 主 存 时 间 常 量 a 比 磁盘 的 寻 道 和 等 待 时 间 70 毫 秒 小 得 多 。 
4) 索引 是 满 的 ， 因 而 每 次 查找 需要 检查 块 数 为 logn,N。 
回答 下 询问 题 : 
a) 什么 样 的 m 值 能 最 小 化 查找 一 个 给 定 记 录 的 时 间 。 
b 随 着 寻 道 和 等 待 时 间 常 量 (70 毫 秒 ) 的 减少 ,会 发 生 什 么 ? 例如 ， 如 果 这 个 常量 到 
一 半 ， 最 优 值 m 会 怎样 变化 ? 


13.4 散 列 表 


有 许多 涉及 散 列 表 的 数据 结构 可 用 做 索引 。 我 们 假定 读者 知道 用 作 主 存 数据 结构 的 散 列 表 。 


在 这 种 结构 中 有 一 个 茹 列 函数 ， 它 以 查找 键 (我 们 可 称 之 为 散 列 键 ) 为 参数 并 计算 出 一 个 介 于 
0 到 8 - 1 的 整数 ， 其 中 B 是 桶 的 数目 。 桶 数组 ， 即 一 个 序号 从 0 到 B - 1 的 数组 中 包含 B 个 链表 的 


头 ， 


每 一 个 对 应 于 数组 中 的 一 个 桶 。 如 果 记 录 的 查找 键 为 K， 那 么 通过 将 该 记录 链接 到 桶 号 为 
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散 列 函数 的 选择 
散 列 函数 对 键 的 “ 散 列 ”应 使 得 到 的 整数 类 似 键 的 一 个 随机 函数 、 因 此 。 桶 常常 能 
分 到 相同 教 量 的 记录 ， 正 如 我 们 将 在 13.4.4 节 中 讨论 的 那样 ， 这 能 改进 访问 一 个 记录 的 平 
均 时 间 。 另 外 ， 散 列 函 教 应 该 容易 计算 ， 因 为 我 们 要 多 次 计算 它 。 


。 当 键 为 整数 时 ， 散 列 函 数 的 一 种 常见 选择 是 计算 K/B 的 余数 ， 其 中 KK 是 键 值 ，B 是 桶 
的 数目 。 通 常 ，B 选 为 一 个 素数 ， 尽 管 正如 我 们 将 从 13.4.5 节 开始 讨论 的 那样 ， 将 B 
RAM RAL, 

“。 当 键 为 字符 串 时 ， 我 们 可 以 把 每 个 字符 看 做 一 个 整数 来 处 理 ， 把 它们 累加 起 来 ， 并 
将 总 和 除 以 B， 然 后 取 其 余数 。 





ACK) 的 桶 列表 中 来 存储 它 ， 其 中 h 是 散 列 函数 。 
13.4.1 辅 存 散 列表 
有 的 散 列 表 包 含 大 量 记录 ， 记 录 如 此 之 多 ， 以 至 于 它们 主要 存放 在 辅助 存储 器 上 ， 这 样 的 
散 列 表 在 一 些 细小 而 重要 的 方面 与 主 存 中 的 散 列表 存在 区 别 。 首 先 ， 桶 数组 由 存储 块 组 成 而 不 
是 由 链表 头 的 指针 组 成 。 通 过 散 列 函数 4 散 列 到 某 个 桶 中 的 记录 被 放 到 该 桶 的 存储 块 中 。 如 果 
桶 溢出 ， 即 它 容纳 不 下 所 有 属于 它 的 记录 , 那么 可 以 给 该 桶 加 一 个 溢出 块 链 以 存放 更 多 的 记录 。 
我 们 将 假定 ， 只 要 给 一 个 i， 桶 的 第 一 个 存储 块 的 位 置 就 可 以 找到 。 例 如 ， 主 存 中 可 以 有 
一 个 指向 存储 块 的 指针 数组 ， 数 组 项 以 桶 号 为 序号 。 另 一 种 可 能 是 把 每 个 桶 的 第 一 个 存储 块 存 
放 到 磁盘 上 菜 固定 的 、 连 续 的 位 置 ， 这 样 我 们 就 可 以 根据 整数 i 计 
算出 桶 i 的 位 置 。 0 
例 13.28 ”图 13-30 所 示 为 一 个 散 列表 。 为 了 使 我 们 的 图 例 易于 
处 理 ， 假 定 每 个 存储 块 只 能 存放 两 个 记录 ， 且 B = 4， 即 散 列 函数 1 
的 返回 值 介 于 0 ~ 3 之 间 。 我 们 列 出 了 一 些 位 于 散 列 表 中 的 记录 。 在 
图 13-30 中 ， 键 值 为 字母 a~f。 我 们 假定 h(d)=0, h(c)=h(e) = 1， 
h (b) = 2Eh (a) = h(f) = 3。 因 此 ， 这 六 个 记录 在 块 中 的 分 布 如 图 3 
所 示 。 口 


注意 ， 图 13-30 中 所 示 每 个 存储 块 的 右 端 都 有 一 个 小 凸 块 ， 这 个 
小 凸 块 表示 存储 块 块头 中 附加 的 信息 。 我 们 将 用 它 来 链接 溢出 块 ， 并 且 从 13.4.5 节 开始 ， 我 们 
将 用 它 来 保留 存储 块 的 其 他 重要 信息 。 
13.4.2 散 列 表 的 插入 

当 一 个 查找 键 为 的 新 记录 需要 被 插入 时 ， 我 们 计算 以 了 )。 如 果 桶 号 为 如 的 桶 还 有 空间 ， 
我 们 就 把 该 记录 存放 到 此 桶 的 存储 块 中 或 在 其 存储 
块 没有 空间 时 存储 到 块 链 上 的 某 个 溢出 块 中 。 如 果 ° 
桶 的 所 有 存储 块 都 没有 空间 ， 我 们 就 增加 一 个 新 的 1 
溢出 块 到 该 桶 的 链 上 ， 并 把 新 记录 存 人 该 块 。 

例 13.29 ”假若 我 们 给 图 13-30 的 散 列表 增加 一 2 
个 键 值 为 8 的 记录 ， 并 且 hg)=1。 那 么 ， 我 们 必须 把 
记录 加 到 桶 号 为 1 的 桶 中 ， 也 就 是 从 上 面 数 起 的 第 二 3 
个 桶 。 可 是 ， 该 桶 的 块 中 已 经 有 两 个 记录 。 因 此 ， 图 13-31 为 散 列 表 的 桶 增加 另外 的 一 块 





图 13-30 BOW 
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我 们 增加 一 个 新 块 ， 并 把 它 链 到 桶 1 的 第 一 块 上 。 键 值 为 8 的 记录 插入 到 这 一 块 中 ， 如 图 13-31 
所 示 。 口 


13.4.3 散 列 表 的 删除 

删除 查找 键 值 为 K 的 记录 方式 相同 。 我 们 找到 桶 号 为 AORN Pie RAR KIC 
录 ， 继 而 将 找到 的 记录 删除 。 如 果 我 们 可 以 将 记录 在 块 中 移动 ， 那 么 删除 记录 后 ， 我 们 可 选择 
合并 同一 链 上 的 存储 块 e。 

例 13.30 ”图 13-32 所 示 为 从 图 13-31 的 散 列 表 中 删除 键 值 为 c 0 
的 记录 后 的 结果 。 由 前 面 可 知 ，h(c)=1， 因 而 我 们 到 桶 号 为 1 的 
桶 〈 即 第 二 个 桶 ) 中 去 查看 它 的 所 有 块 ， 以 找 出 键 值 为 c 的 一 条 
记录 (或 所 有 记录 ， 当 查找 键 不 是 主键 时 )。 我 们 在 桶 1 的 链表 的 > 
第 一 个 存储 块 中 找到 了 该 记录 。 既 然 现 在 有 可 用 空间 ， 我 们 可 以 
把 键 值 为 8 的 记录 从 链表 的 第 二 个 存储 块 移 到 第 一 个 存储 块 ， 并 3 
删除 第 二 个 存储 块 。 

我 们 也 做 了 删除 键 值 为 4 的 记录 。 对 于 这 一 键 值 ， 我 们 找到 图 13-32 散 列 表 的 删除 结果 
桶 3， 删 除 该 记录 ， 并 把 剩 下 的 记录 移 到 块 的 前 部 以 使 之 紧凑 。 口 


13.4.4 散 列 表 索 引 的 效率 

理想 情况 是 存储 器 中 有 足够 的 桶 ， 使 绝 大 多 数 桶 都 只 由 单个 块 组 成 。 如 果 这 样 ， 那 么 一 般 
的 查询 只 需 一 次 磁盘 VO， 且 文 件 的 插入 和 删除 也 只 需 两 次 磁盘 WO。 这 样 的 结果 比 直接 用 稀疏 
索引 、 笛 密 索 引 或 B 树 好 得 多 ( 尽管 散 列表 不 能 像 B 树 那样 支持 范围 查询 ; 参见 13.3.4 节 )。 

但 是 ， 如 果 文 件 不 断 增长 ， 那 么 最 终 就 会 出 现 多 数 桶 的 链表 中 都 有 许多 块 的 情况 。 如 果 这 
样 ， 我 们 就 需要 在 块 的 长 链表 中 查找 ， 每 个 块 至 少 需要 一 次 磁盘 MO。 因 此 ， 我 们 就 必须 设法 
减少 每 个 桶 的 块 数 。 

到 目前 为 止 ， 我 们 学 过 的 散 列表 都 称 为 静态 散 列表 ， 因 为 桶 的 数目 8 从 不 改变 。 但 是 ， 散 
列表 中 还 有 几 种 动态 散 列 表 ， 它 们 人 允许 B 改 变 ， 使 有 近似 于 记录 总 数 除 以 块 中 能 容纳 的 记录 数 
所 得 到 的 商 ; 也 就 是 说 ， 每 个 桶 大 约 有 一 个 存储 块 。 我 们 将 讨论 两 种 这 样 的 方法 ， 

1. 13.4.5 节 的 可 扩展 散 列 ; 和 

2. 13.4.7 节 的 线性 散 列 。 

第 一 种 方法 在 认为 B 太 小 时 即将 其 加 倍 ， 而 第 二 种 方法 每 当 文 件 的 统计 数字 表明 8 需要 增 
加 时 即 给 8 加 1。 : 

13.4.5 可 扩展 散 列表 

我 们 的 第 一 种 动态 散 列 方法 称 为 可 扩展 散 列 表 。 它 在 简单 的 静态 散 列表 结构 上 主要 增加 了 ， 

1. 为 桶 引 人 了 一 个 间接 层 ， 即 用 一 个 指向 块 的 指针 数组 来 表示 桶 ， 而 不 是 用 数据 块 本 身 组 
成 的 数组 来 表示 桶 。 

2. 指针 数组 能 增长 ， 它 的 长 度 总 是 2 的 寡 ， 因 而 数组 每 增长 一 次 ， 桶 的 数目 就 翻 倍 。 

3. 不 过 ,并 非 每 个 桶 都 有 一 个 数据 块 ; 如 果 某 些 桶 中 的 所 有 记录 都 可 以 放 在 一 个 块 中 , 那 
么 ,这 些 桶 可 能 共享 一 个 块 。 

4. 散 列 函数 h 为 每 个 键 计算 出 一 个 天 位 二 进 制 序列 ， 该 K 值 足够 大 ， 比 如 32。 但 是 ， 无 论 





O 合并 一 条 链 上 的 块 随时 都 要 冒 风险 ， 这 是 指 当 手 摆 发 生 时 ， 即 当 我 们 往 一 个 桶 里 交 苦 地 插入 或 删除 记录 时 ， 
可 能 每 一 步 都 会 导致 块 的 创建 或 删除 。 
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i 是 使 用 的 位 数 时 ， 桶 数组 将 有 2: 个 项 。 

例 13.31 图 13-33 所 示 为 一 个 小 的 可 扩展 散 列 表 。 为 简单 起 见 ， 我 们 假定 X=4， 即 散 列 孙 
数 h 只 产生 四 位 二 进 制 序列 。 当 前 使 用 的 只 有 其 中 一 位 ， 
正如 桶 数组 上 方 的 框 中 j=1 所 标明 的 那样 。 因 此 ， 桶 数 
组 只 有 两 个 项 ， 一 个 对 应 0， 另 一 个 对 应 1。 

桶 数组 项 指向 两 个 块 。 第 一 块 存放 当前 所 有 查找 键 
被 散 列 成 以 0 开头 的 二 进 制 序列 的 记录 ; 第 二 个 块 存放 





所 有 查找 键 被 散 列 成 以 1 开头 的 二 进 制 序列 的 记录 。 为 mi 数据 志 

方便 起 见 ， 我 们 显示 的 记录 键 是 散 列 函数 将 这 些 键 转 图 13-33 可 扩展 散 列表 

换 成 的 二 进 制 位 序列 。 因 此 ， 第 一 块 有 一 个 键 被 散 列 为 0001 的 记录 ;而 第 二 个 块 存放 着 键 分 别 
散 列 为 1001 和 1100 的 记录 。 口 


我 们 应 该 注意 到 ， 图 13-33 中 每 个 存储 块 的 “小 凸 块 ” 中 都 出 现 了 数字 1。 这 个 数字 其 实 出 
现在 每 个 存储 块 的 块头 中 ， 表 明 由 散 列 函数 得 到 的 位 序列 中 有 多 少 位 用 于 确定 记录 在 该 块 中 的 
成 员 资格 。 在 例 13,31 的 情况 下 ， 只 用 一 个 二 进 制 位 来 确定 所 有 的 块 和 记录 ， 但 正如 我 们 将 要 
看 到 的 那样 ， 随 着 散 列表 的 增长 ， 不 同 块 中 需要 考虑 的 位 数 可 能 不 同 。 也 就 是 说 ， 桶 数组 的 大 
小 由 我 们 当前 正在 使 用 的 最 大 二 进 制 位 数 来 决定 ， 但 有 些 块 可 能 使 用 较 少 的 位 数 。 

13.4.6 可 扩展 散 列 表 的 插入 

可 扩展 散 列表 的 插入 开始 时 类 似 静 态 散 列表 的 插入 。 为 了 插入 键 值 为 RK 的 记录 ， 我 们 计算 
出 h (K)， 取 出 这 一 二 进 制 位 序列 的 前 位， 并 找到 桶 数组 中 序号 为 这 个 位 的 项 。 注 意 ， 因 为 作 
为 散 列 数据 结构 的 一 部 分 保存 ， 我 们 能 确定 i。 

根据 数据 组 中 该 项 的 指针 找到 菜 个 存储 块 B8。 如 果 B 中 还 有 存放 新 记录 的 空间 ， 我 们 就 把 
新 记录 存 人 ， 而 插入 也 就 完成 了 。 如 果 B 中 没有 空间 ,那么 视 数 字 i; 的 不 同 有 两 种 可 能 ， 数 字 } 
表明 散 列 值 中 有 和 多少 位 于 确定 存储 块 B 的 成 员 资 格 ( 回忆 一 下 ，j 的 值 可 在 图 中 每 个 存储 块 的 
“小 凸 块 ” 中 找到 )。 

1. 如 果 j<i， 那 么 不 必 对 桶 数组 做 什么 变化 。 我 们 : 

a) 将 块 B 分 裂 成 两 个 存储 块 。 

b) 根据 记录 散 列 值 的 第 G +1 ) 位 ,将 8 中 的 记录 分 配 到 这 两 个 存储 块 中 ， 该 位 为 0 的 记 
录 保 留 在 8 中 ， 而 该 位 为 1 的 记录 则 放 和 人 到 新 块 中 。 

c) 4B (7 +1) 存 人 这 两 个 存储 块 的 小 凸 块 中 ， 以 标明 用 于 确定 成 员 资格 的 二 进 制 位 数 。 

d 调整 桶 数组 中 的 指针 ， 使 原来 指向 块 B 的 项 指向 块 B 或 新 块 ， 这 由 项 的 第 (j+1) 位 
决定 。 

注意 , 分 裂 块 B 可 能 解决 不 了 问题 ， 因 为 有 可 能 块 B 中 所 有 记录 将 分 配 到 由 有 分 裂 成 的 
两 个 存储 块 的 其 中 一 个 中 去 。 如 果 这 样 ， 我 们 需要 对 仍然 太 满 的 块 用 下 一 个 更 大 的 j 值 重复 上 
述 过 程 。 

2. 如 果 j = i, 那么 我 们 必须 先 将 加 1。 我们 使 桶 数组 长 度 翻 了 一 倍 ， 因 此 数组 中 现在 有 2#;。 
假定 w 是 以 前 的 桶 数组 中 作为 某 项 序号 的 i 位 二 进 制 位 序列 。 在 新 桶 数组 中 ， 序 号 为 w0 A wi 
( 即 分 别 用 0 和 1 扩展 w 所 得 到 的 数 ) 的 项 都 指向 原 w 项 指向 的 块 。 也 就 是 说 ， 这 两 个 新 项 共享 
同一 个 存储 块 ， 而 存储 块 本 身 没 有 变化 。 该 块 的 成 员 资格 仍然 按 原先 的 位 数 确 定 。 最 后 ， 我 们 
继续 像 第 一 种 情况 中 那样 分 裂 。 由 于 i 现在 大 于 j， 所 以 满足 第 一 种 情况 。 


NR 


$13.32 ”假如 在 图 13-33 的 表 中 插入 一 个 键 值 散 列 为 
1010 序 列 的 记录 。 因 为 第 一 位 是 1， 所 以 该 记录 属于 第 二 个 
块 。 然 而 ， 该 块 已 满 ， 因 此 需要 分 裂 。 这 时 我 们 发 现 广 汪 1， 
因此 首先 需要 将 桶 数组 加 位 ， 如 图 13-34 所 示 。 图 中 我 们 已 
将 i 设 为 2。 

注意 ， 以 0 开头 的 两 个 项 都 指向 存放 键 值 散 列 序列 以 0 开 
头 的 记录 的 那个 存储 块 ， 且 该 存储 块 的 “小 凸 块 ”中 数字 
仍然 为 1， 这 表明 该 块 的 成 员 资格 只 由 位 序列 的 第 一 位 确定 。 图 13.34 使 用 两 位 散 列 
但 是 ， 位 序列 以 1 开头 的 记录 存储 块 需要 分 裂 ， 因 此 我 们 把 函数 值 的 散 列 表 
这 一 块 中 的 记录 分 到 以 10 开 头 和 11 开 头 的 两 个 存储 块 中 。 
在 这 两 个 存储 块 中 的 小 凸 块 中 有 一 个 2， 表 示 成 员 资格 用 位 
序列 的 前 两 位 来 确定 。 幸 好 ， 分 裂 是 成 功 的 ; 既然 两 个 新 
块 都 至 少 有 一 个 记录 ， 我 们 就 不 用 进行 递归 分 裂 。 

现在 ,假定 我 们 插入 键 值 分 别 为 0000 和 0111 的 记录 。 这 
两 个 记录 都 属于 图 13-34 中 第 一 个 存储 块 ， 于 是 该 块 游 出 。 
因为 该 块 中 只 用 一 位 来 确定 其 成 员 资格 ， 而 i=2， 所 以 我 们 
就 不 用 调整 桶 数组 。 我 们 只 需 分 裂 该 块 ， 让 0000 和 0001 留 
在 该 块 ， 而 将 0111 存 放 到 新 块 中 ， 桶 数组 中 由 01 项 改 为 指 
向 新 抉 。 这 一 次 我 们 又 很 幸运 ， 所 有 记录 没有 全 分 配 到 一 
个 块 中 ， 所 以 我 们 不 必 递 归 地 分 裂 。 

假若 现在 要 插 人 一 个 键 值 为 1000 的 记录 。 对 应 10 的 块 
溢出 。 由 于 它 已 经 使 用 两 位 来 确定 其 成 员 资格 ， 这 时 需要 
再 次 分 裂 桶 数组 ， 并 有 旦 把 ; 设 为 3。 图 13-35 给 出 了 这 时 的 数 
据 结构 。 注 意 ， 图 中 对 应 10 的 块 被 分 裂 成 100 的 块 和 101 的 
块 ， 而 其 他 块 仍 只 使 用 两 位 来 确定 成 员 资格 。 口 


13.4.7 线性 散 列表 

可 扩展 散 列表 有 一 些 重要 的 好 处 。 最 大 的 好 处 在 于 ， 当 查找 一 个 记录 时 ， 我 们 总 是 内 需要 
查找 一 个 数据 块 。 我 们 还 需要 查找 到 一 个 桶 数组 的 项 ， 但 如 果 桶 数组 小 到 可 以 存放 在 主 存 中 ， 
那么 访问 桶 数组 就 不 需要 进行 磁盘 IO。 然 而 ， 可 扩展 散 列表 也 有 一 些 缺点 ; 

1. 当 桶 数组 需要 翻 倍 时 ， 要 做 大 量 的 工作 ( 当 ; 很 大 时 )。 这 些 工作 会 阻碍 对 数据 文件 的 访 
问 ， 或 是 使 某 些 插入 看 来 花费 很 长 的 时 间 。 

2. 当 桶 数 翻 倍 后 ， 它 在 主 存 中 可 能 就 装 不 下 了 ， 或 者 把 其 他 的 一 些 我 们 需要 保存 在 主 存 的 
数据 挤 出 去 。 其 结果 是 ， 一 个 运行 良好 的 系统 可 能 突然 之 间 每 个 操作 所 需 的 磁盘 1O 开 始 大 增 ， 
并 且 出 现 明显 的 性 能 下 降 。 

3. 如 果 每 块 的 记录 数 很 少 ， 那 么 很 有 可 能 某 一 块 的 分 裂 比 在 逻辑 上 讲 需要 分 裂 的 时 间 提前 
许多 。 例如， 如 果 像 我 们 使 用 的 例子 一 样 ， 块 可 存放 两 个 记录 ， 即 使 记录 的 总 数 远 小 于 22?， 这 
也 有 可 能 出 现 三 个 记录 的 前 20 位 二 进 制 位 序列 。 在 这 种 情况 下 ， 我 们 将 不 得 不 使 用 ;=20 和 一 百 
万 个 桶 数组 项 ， 尽 管 存 有 记录 的 块 数 远 小 于 一 百 万 。 

另 一 种 策略 称 为 线性 数列 ， 其 中 桶 的 增长 较为 缓慢 。 在 线性 散 列 中 我 们 发 现 的 新 要 点 为 

桶 数 的 选择 总 是 使 存储 块 的 平均 记录 数 保持 与 存储 块 所 能 容纳 的 记录 总 数 成 一 个 固定 的 








图 13-35 使 用 3 位 二 进 制 
序列 的 散 列 表 
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比例 ， 如 80%。 
。 由 于 存储 块 并 不 总 是 可 以 分 橡 ， 所 以 允许 有 溢出 块 ， 尽 管 每 个 桶 的 平均 溢出 块 数 远 小 于 1。 
。 用 来 做 桶 数组 项 序号 的 二 进 制 位 数 是 [logzn]， 其 中 n 是 当前 的 桶 数 。 这 些 位 总 是 从 散 列 函 
数 得 到 的 位 序列 的 右 ( 低位 ) 端 开 始 取 。 
。 假 定 散 列 函数 值 的 i 位 正在 用 来 给 桶 数组 项 编号 ， 且 有 一 个 键 值 为 K 的 记录 想 要 插入 到 编 
号 为 gaara 的 桶 中 ; B aar cah DOKA i Mo RA, Æ aar a 当 作 二 进 制 整 数 ， 
REA mo MR m<n， 那 么 编号 为 m 的 桶 存在 并 把 记录 存 人 该 桶 中 。 如 果 n<m<2', If 
么 桶 m 还 不 存在 ， 因 此 我 们 把 记录 存 人 桶 m -2i-!， 也 就 是 当 我 们 把 w ( 它 肯定 是 1 ) 改 
为 0 时 对 应 的 桶 。 
例题 13.33 图 13-36 所 示 为 一 个 n = 2 的 线性 散 列表 。 我 们 目前 只 用 散 列 值 的 一 位 来 确定 记 
录 所 属 的 桶 。 按 照例 13.31 建 立 的 模式 ， 我 们 假定 散 列 函数 
产生 四 位 ， 并 且 用 将 散 列 函数 作用 到 记录 的 查找 键 上 所 产 
生 的 值 来 表示 记录 。 
我 们 在 图 13-36 中 看 到 两 个 桶 ,每 个 桶 包含 一 个 存储 块 ， 
桶 的 编号 为 Oo 和 1。 所 有 散 列 值 以 0 结尾 的 记录 存 人 第 一 个 桶 ， 
而 所 有 散 列 值 以 1 结尾 的 记录 存 人 第 二 个 桶 。 

参数 i ( 当前 被 使 用 的 散 列 函数 值 的 位 数 )、n〔 当前 的 桶 数 ) 和 r ( 当前 散 列表 中 的 记录 总 
数 ) 也 是 这 一 结构 的 一 部 分 。 比 率 mn 将 受到 限制 ,使 一 般 的 桶 都 只 需要 约 一 个 磁盘 存储 块 。 
在 选择 桶 数 n 时 ， 我 们 采用 的 策略 是 使 数据 文件 中 记录 的 个 数 不 超 过 1.74， 即 r 志 1.7n。 也 就 是 
说 ,由 于 每 个 存储 块 存放 两 个 记录 ， 桶 的 平均 充满 程度 不 会 超过 存储 块 容量 的 85%。 口 


13.4.8 线性 散 列 表 的 插入 

当 插 入 一 个 新 记录 时 ， 我 们 通过 在 13.4.7 节 提出 的 算法 来 确定 它 所 属 的 桶 。 也 就 是 说 ， 我 
们 计算 A(K)， 其 中 K 是 记录 的 键 ， 并 确定 h(K) 序 列 后 面 用 做 桶 号 的 正确 位 数 。 我 们 把 记录 或 者 
放 信 该 桶 ,或 者 (在 桶 号 大 于 等 于 n 时 ) 放 人 把 第 一 个 二 进 制 由 1 改 为 0 后 确定 的 桶 中 。 如 果 桶 
中 没有 空间 ， 那 么 我 们 创建 一 个 溢出 块 ， 并 把 它 链 到 那个 桶 上 ， 并 且 记 录 就 在 人 该 溢出 块 中 。 

每 次 插入 ， 我 们 都 用 当前 的 记录 总 数 x 的 值 跟 立 值 x/n 相 比 ， 若 比率 太 大 ， 就 增加 下 一 个 桶 
到 线性 散 列 表 中 。 注 意 ， 新 增加 的 桶 和 发 生 插入 的 桶 之 间 没 有 任何 联系 ! 如 果 新 加 入 的 桶 号 的 
二 进 制 表示 为 1aa3…a;， 那 么 我 们 就 分 裂 桶 号 为 0aza;…a 的 桶 中 的 记录 ， 根 据 记 录 的 后 i 位 值 分 
别 存 人 这 两 个 桶 。 注 意 ， 这 些 记录 的 散 列 值 都 以 asa3…a 结 尾 ，、 并 且 只 有 从 右 数 起 的 第 位 不 同 。 

最 后 一 个 重要 的 细节 是 当 m 超 过 2 时 的 情况 。 这 时 ，; 递 增 1。 从 技术 上 来 讲 ， 所 有 桶 的 桶 号 
都 要 在 它们 的 位 序 前 面 增添 一 个 0， 但 由 于 这 些 位 序列 被 解释 成 整数 ， 因 而 就 不 需要 做 任何 物 
理 上 的 变化 ， 还 是 保持 原样 。 

例 13.34 我 们 继续 例 13.33， 考 虑 插入 键 值 散 列 为 0101 的 记录 时 的 情况 。 因 为 位 序列 以 1 结 
Æ, 记录 属于 图 13-36 中 的 第 二 个 桶 。 桶 中 有 空间 ， 因 而 
不 用 创建 溢出 块 。 

但 是 ， 由 于 那里 现在 有 四 个 记录 在 两 个 桶 中 ， 超 过 了 
1.7 这 一 比率 ， 因 此 我 们 必须 把 4 提高 到 3。 因 为 [log,31=2， 
我 们 应 该 开始 考虑 把 桶 0 和 1 改 成 桶 00 和 01， 但 不 需要 对 数 
据 结构 做 任何 改变 。 我 们 增加 下 一 个 桶 到 散 列表 中 ， 该 桶 
编号 为 10， 接 着 ， 分 裂 桶 00， 桶 00 的 序号 只 有 第 一 位 与 新 图 13-37 增加 第 三 个 桶 





图 13-36 线性 散 列表 
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DITA. FEES, PB HOCH IC RR OOH, AWE LOOK; 而 键 值 散 列 
为 1010 的 记录 存 人 桶 10， 因 为 它 以 10 结 必 ， 所 产生 的 散 列 表 如 图 所 示 13-37。 

下 面 ， 假 定 我 们 增加 一 个 键 值 散 列 为 0001 的 记录 。 记 录 最 后 两 位 为 01， 且 01 桶 目前 存在 ， 
我 们 把 记录 存 人 该 桶 。 不 巧 的 是 ， 该 桶 的 块 
已 经 装 满 ， 所 以 我 们 增加 一 个 溢出 块 。 这 三 
个 记录 被 分 配 在 这 个 桶 的 两 个 块 中 ; 我 们 选 
择 按 散 列 键 的 数值 顺序 来 保存 它们 ， 但 这 个 
顺序 并 不 重要 。 由 于 该 散 列表 中 记录 与 桶 的 
比率 为 5/3， 小 于 1.7， 故 我 们 不 需 创 建新 桶 。 
所 产生 的 散 列表 如 图 13-38 所 示 。 图 13-38 必要 时 使 用 溢出 块 

最 后 ， 考 虑 插 人 键 值 散 列 为 0111 的 记录 。 该 记录 最 后 两 位 为 11， 但 桶 11 还 不 存在 ， 因 此 我 
们 把 记录 改 为 在 人 桶 01， 该 桶 号 只 是 在 第 一 位 上 与 桶 11 不 同 ， 不 是 1 而 是 0。 新 记录 存 人 到 该 桶 
中 的 溢出 块 中 。 [ésg 

但 是 ， 该 散 列 表 的 记录 与 桶 的 比率 已 超过 1.7， 因 此 ， 我 们 必须 创建 一 个 编号 为 11 的 新 桶 ， 

该 桶 碰巧 是 新 记录 所 需 的 桶 。 我 们 分 裂 桶 01 中 的 四 个 记 
录 ， 散 列 值 为 0001 和 0101 的 记录 保留 在 桶 01 ， 而 散 列 值 iF? 
为 0111 和 1111 的 记录 存 人 新 桶 。 因 为 桶 01 现 在 只 有 两 个 [r= 
记录 ， 我们 可 以 删除 其 溢出 块 。 现 在 ， 散 列表 如 图 13-39 

所 示 。 

注意 ， 当 下 次 插入 记录 到 图 13-39 中 时 ， 我 们 将 会 使 
记录 与 桶 的 比率 超过 1.7。 那 时 ， 我 们 将 把 n 提 到 5， 并 且 i 
变 成 3。 口 


、 、 图 13-39 增加 第 四 个 桶 

例 13.35 ”线性 散 列表 的 查询 依照 我 们 所 描述 的 选择 
插入 记录 所 属 桶 的 过 程 。 如 果 我 们 希望 查找 的 记录 不 在 该 桶 中 ， 那 么 别 的 地 方 也 不 会 有 所 需 记 
录 。 举 例 来 说 ， 考 虑 图 13-37 中 的 情形 ， 其 中 ;= 2 且 n= 3。 

首先 ， 假 定 我 们 想 查 找 键 值 散 列 为 1010 的 记录 。 由 于 i= 2， 我 们 查看 最 后 两 位 10， 把 它们 
解释 为 二 进 制 整 数 ， 即 m = 2。 因 为 m < n， 则 编号 为 10 的 桶 存在 ， 因 而 我 们 到 该 桶 中 查找 。 
注意 ， 不 能 因为 我 们 找到 一 个 键 值 散 列 为 1010 的 记录 就 以 为 找到 了 所 需 的 记录 ， 我 们 需要 检查 
记录 的 整个 键 来 确定 是 否 所 需 记录 。 

接着 ， 我 们 考虑 查找 键 值 散 列 为 1011 的 记录 。 现 在 ， 我 们 必须 查看 编号 为 11 的 桶 。 由 于 该 
桶 号 作为 二 进 制 值 整数 m = 3， HA m 宇 nx， 所 以 桶 11 不 存在 。 我 们 通过 把 第 一 位 1 改 为 0 后 重新 ”659 
定位 到 桶 01 中 。 可 是 ， 桶 01 中 不 存在 键 值 散 列 为 1011 的 记录 ， 因 而 我 们 所 需 查 找 的 记录 肯定 不 
在 散 列 表 中 。 o 


13.4.9 习题 
习题 13.4.1 ”假若 在 图 13-30 的 散 列 表 中 发 生 下 列 插入 和 删除 ， 请 说 明 将 产生 什么 情况 ， 
1) 记录 8 到 记录 /分 别 插入 桶 0 到 桶 3。 
2) 记录 a 和 b 记 录 被 删除 。 
3) 记录 k 到 n 分 别 插入 桶 0 到 桶 3。 
4) 记录 c 和 和 4d 被 删除 。 











FI 


习题 13.4.2 ”我 们 没有 讨论 在 线性 散 列表 或 可 扩展 散 列表 中 删除 操作 如 何 实 现 。 定 位 被 删 
除 记录 的 机 制 应 该 是 显而易见 的 。 你 认为 应 用 什么 方式 实行 删除 操作 ? 特别 地 ， 如 果 删 除 
后 表 变 小 ， 人 允许 压缩 某 些 块 ， 那 么 重 构 散 列表 有 什么 优 缺 点 ? 
习题 13.4.3 ”本 节 内 容 假定 索引 键 是 惟一 的 。 不 过 ， 只 需 对 这 些 技术 稍微 做 些 修改 就 可 用 
来 处 理 有 重复 值 的 查找 键 。 描 述 删 除 、 查 询 和 插 人 算法 需 做 的 修改 ， 并 说 明 当 重复 值 出 现 
在 下 列 结构 中 时 带 来 的 主要 问题 : 
* a) 简单 散 列 表 。 
b) 可 扩展 散 列 表 。 
c) 线性 散 列表 。 
习题 13.4.4 ”实际 中 有 些 散 列 函 数 并 不 像 理 论 上 那样 好 。 假 定 我 们 在 整数 键 值 ;上 定义 一 个 
散 列 函数 h(i)=?imod B 
* a) 如 果 B=10， 该 散 列 函数 会 出 现 什么 问题 ? 
b) 如 果 B=16， 该 散 列 函数 又 有 什么 好 处 ? 
c) 该 散 列 函数 对 哪些 B 值 有 用 ? 
习题 13.4.5 在 每 个 存储 块 可 存放 nn 条 记录 的 可 扩展 散 列表 中 ， 何 时 会 出 现 需 要 递归 处 理 溢 
出 块 的 情况 ;， 即 块 中 的 所 有 记录 对 应 到 分 裂 所 产生 的 两 个 块 中 的 同一 块 。 
习题 13.4.6 假定 键 值 散 列 为 4 位 序列 ,就 像 本 节 中 可 扩展 散 列表 和 线性 散 列表 的 例子 一 样 。 
但 是 ,假定 块 中 可 存放 三 个 记录 而 非 两 个 记录 。 如 果 开 始 时 散 列表 中 有 两 个 空 存 储 块 (对 
应 于 0 和 1 ),， 请 给 出 插入 键 值 如 下 的 记录 后 的 结构 ; 
* a) 0000，0001，…，1111， 且 散 列 方法 是 可 扩展 散 列 。 
b) 0000，0001，…，1111， 且 散 列 方法 是 线性 散 列 ， 其 充满 度 闵 值 为 100%。 
c) 1111，1110，…，0000， 且 散 列 方法 是 可 扩展 散 列 。 
d) 1111，1110，…，0000， 且 散 列 方法 是 线性 散 列 ， 其 充满 度 阐 值 为 75%。 
习题 13.4.7 假定 我 们 使 用 可 扩展 散 列表 或 线性 散 列表 模式 ， 但 是 有 指向 记录 的 外 部 指针 。 
这 些 指针 妨碍 了 记录 在 块 之 间 的 移动 ， 而 这 些 散 列 模式 中 有 时 需要 如 此 。 提 出 几 种 能 修改 
结构 的 方法 ， 从 而 允许 外 部 指针 。 
习题 13.4.8 ”线性 散 列 模式 中 使 用 一 个 阔 值 常量 c， 使 当前 桶 的 数目 na 和 当前 记录 总 数 /之 间 
A r=ckh 的 关系 ， 其 中 人 是 每 块 可 容纳 的 记录 数 。 例 如 ， 在 例 13.33 中 ， 我 们 使 用 上 = 2 和 < 
= 0.85， 因 而 每 个 桶 的 记录 数 为 1.7， 即 + = 1.7n。 
a) 为 了 方便 起 见 ， 假 定 每 个 键 恰好 能 按 预 期 的 次 数 出 现 。。 作 为 <、k 和 n 的 函数 ， 并 包 
括 溢 出 块 在 内 ， 这 种 结构 需要 多 少 个 存储 块 ? 
b 键 一 般 都 不 会 平均 分 布 ， 而 给 定 键 (RGR) 的 记录 一 般 满 足 泊 松 分 布 。 也 就 是 
说 ， 如 果 和 是 给 定 键 后 级 所 期 望 的 记录 数 ， 那 么 实际 记录 数 为 1， 其 概率 是 e/i 
在 这 种 假定 下 ， 作 为 c<、k 和 和 n 的 函数 ， 期 望 使 用 的 块 数 是 多 少 ? 
习题 13.4.9 ”假定 有 一 个 1 000 000 条 记录 的 文件 ， 且 我 们 想 把 它 散 列 到 一 个 有 1000 个 桶 的 
散 列表 中 。 每 个 存储 块 可 存放 100 个 记录 ， 并 且 我 们 希望 块 尽 可 能 满 ， 但 不 允许 两 个 桶 共 
享 一 个 块 。 存 储 这 一 散 列 表 所 需 的 最 多 和 最 少 的 存储 块 数 各 是 多 少 ? 


@ 该 假定 并 不 意味 着 所 有 存储 块 都 有 数量 相等 的 记录 ， 因 为 有 些 桶 所 代表 的 键 是 其 他 桶 的 两 倍 。 


È F| E A 425 


13.5 小 结 


。 顺 序 文件 : 几 种 简单 的 文件 组 织 ， 其 产生 方式 是 将 数据 文件 按 某 个 查找 键 排序 ， 并 在 该 
文件 上 建立 索引 。 

“稠密 索引 : 这 种 索引 为 数据 文件 的 每 个 记录 设 一 个 键 -指针 对 。 这 些 键 -指针 对 按 它们 的 
键 值 顺序 存放 。 

RRR: 这 些 索引 为 数据 文件 的 每 个 存储 块 设 一 个 键 -指针 对 。 与 指针 相对 应 的 键 为 该 
指针 所 指向 的 存储 块 中 第 一 个 键 值 。 

“多 级 索引 : 在 索引 文件 上 再 建 索引 ， 在 索引 的 索引 上 再 建 索 引 ， 等 等 ， 这 在 有 时 候 是 很 
AFA. RRS | DA HH 

“文件 的 扩展 : 随 着 数据 文件 和 它 的 索引 文件 的 增长 ， 必 须 采取 一 些 措施 来 为 文件 增加 附 
加 的 存储 块 。 为 文件 的 基本 块 增加 溢出 块 是 一 种 可 行 的 办 法 。 在 数据 文件 或 索引 文件 的 
块 序 列表 中 插 人 更 多 的 块 ， 除 非 要 求 文件 本 身 存放 在 连续 的 磁盘 块 中 。 

“辅助 索引 : 即使 数据 文件 没有 按 查 找 键 K 排 序 ， 我 们 也 可 在 键 X 上 建立 索引 。 这 样 ， 索 引 
必须 是 稠密 的 。 

" 倒 排 索引 : 文件 与 其 包含 的 词 之 间 的 关系 通常 可 通过 一 个 词 -指针 对 的 索引 结构 来 表示 。 
指针 指向 “ 桶 ”文件 的 某 个 位 置 ， 该 位 置 上 有 一 个 指向 文件 中 词 的 出 现 的 指针 列表 。 
“BH: 这 些 结构 实质 上 是 有 着 很 好 的 扩充 性 能 的 多 级 索引 。 带 有 nm 个 键 和 n+1 个 指针 的 存 
储 块 被 组 织 成 一 棵 树 。 叶 结 点 指向 记录 。 任 何 时 候 所 有 索引 块 都 在 半 满 与 全 满 之 间 。 
“范围 查询 : 指 查找 键 值 在 给 定 范围 内 的 所 有 记录 ， 有 索引 的 顺序 文件 和 B 树 索引 可 为 这 
类 查询 提供 便利 ， 但 散 列 表 索 引 不 能 。 

BAA: 同 创建 主 存 散 列表 一 样 ， 我 们 也 可 以 基于 辅 存 的 存储 块 来 建立 散 列表 。 散 列 函 
数 将 键 值 映 射 到 桶 ， 有 效 地 将 数据 文件 的 记录 分 配 到 多 个 小 组 ( 桶 )。 桶 用 一 个 存储 块 和 
可 能 出 现 的 溢出 块 表示 。 

“动态 索引 : 如 果 一 个 桶 中 的 记录 太 多 ， 势 必 降 低 散 列 表 的 性 能 ， 因 而 随 着 时 间 推 移 ， 桶 
的 数量 可 能 需要 增加 。 人 允许 合理 增加 桶 的 两 种 重要 方法 是 可 扩展 散 列 和 线性 散 列 。 它 们 
都 首先 将 键 值 散 列 到 一 个 长 位 串 ， 然 后 使 用 其 中 若干 位 来 决定 记录 所 属 的 桶 ， 位 的 数目 
是 可 变 的 。 

TERRI: 这 种 方法 允许 在 存在 记录 数 太 多 的 桶 时 将 桶 的 数目 加 倍 。 它 使 用 指向 块 的 
指针 数组 来 表示 桶 。 为 了 避免 块 过 多 ， 几 个 桶 可 以 用 同一 个 块 表示 。 

"线性 散 列 : 这 种 方法 每 当 桶 中 的 记录 比例 超出 立 值 时 增加 一 个 桶 。 由 于 单个 桶 的 记录 不 
会 引起 表 的 扩展 ， 所 以 在 茶 些 情形 下 需要 洲 出 块 。 
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Knuth 写 的 书 [6] 包 含 了 有 关 数 据 结构 方面 的 许多 内 容 ， 包 括 选 择 散 列 函 数 和 设计 散 列表 的 技术 
以 及 关于 B 树 变 体 的 许多 思想 。B+ 树 ( 内 部 结 点 没有 键 值 ) 的 明确 陈述 出 现在 [6] 的 1973 版 中 。 

[9] 中 讨论 了 辅助 索引 和 文档 检索 的 技术 ， 而 [1 和 [5 是 有 关 文本 文档 索引 方法 的 综述 。 
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第 14 章 ”多维 索 5| 和 位 图 索 5| 


到 目前 为 上 上 ， 我 们 讨论 的 所 有 索引 都 是 一 维 的 。 也 就 是 说 ， 它 们 使 用 单个 查找 键 ， 并 且 按 
给 定 的 查找 键 值 来 检索 记录 。 我 们 把 查找 键 想像 成 单个 属性 或 字段 。 不 过 ， 一 个 建立 在 由 多 个 
字段 组 成 的 查找 键 上 的 索引 仍然 可 以 被 认为 是 一 维 的 。 如 果 想 建立 一 个 一 维 索 引 ， 它 的 查找 键 
AFR CF, Fo, Fi )， 那 么 我 们 可 以 把 查找 键 值 取 成 这 些 字段 值 的 拼接 : 第 一 个 为 互 , 第 二 
TAP, 等 等 。 我 们 可 以 使 用 特殊 标记 符号 来 分 隔 这 些 字段 值 ， 从 而 使 查找 键 值 和 字段 (F, 
Fy, Fy) 值 的 列表 之 间 的 联系 不 产生 歧义 。 

例 14.1 若 字 段 f1/ 和 F 分 别 是 字符 串 和 整数 ， 并 且 # 不 会 在 字符 串 中 出 现 , 那么 =' abcd’ 
各 =123 的 组 合 可 以 被 表示 成 字符 串 'abca#123'。 口 


在 第 13 章 中 ,我 们 利用 一 维 键 空间 的 方式 有 几 种 : 

* 顺 序 文件 上 的 索引 和 B 树 都 利用 了 使 所 有 键 具 有 单一 、 有 序 的 顺序 这 一 点 。 

。 散 列表 要 求 查找 的 查找 键 值 是 完全 已 知 的 。 如 果 查 找 键 由 几 个 字段 组 成 ， 那 么 即使 只 有 

一 个 字段 不 知道 ， 我 们 也 无 法 运用 散 列 函数 ， 而 必须 查找 所 有 的 桶 。 

许多 应 用 要 求 我 们 将 数据 视 为 存在 于 二 维 或 更 高 维 的 空间 中 。 这 样 的 应 用 中 有 一 些 能 被 传 
统 的 DBMS 系 统 支 持 ， 但 也 有 一 些 专 为 多 维 应 用 设计 的 系统 。 这 些 专 用 系统 的 不 同 之 处 的 一 个 
重要 方面 在 于 它们 使 用 一 些 支 持 在 普通 SQL 应 用 中 不 常见 的 某 些 种 类 的 查询 的 数据 结构 。14.1 
节 将 介绍 得 益 于 支持 多 维 数据 和 多 维 查询 的 索引 的 典型 查询 。 然 后 ， 在 14.2 节 和 14.3 节 中 我 们 
讨论 下 列 数据 结构 : 

1 网 格 文件 ， 一 维 散 列表 的 一 种 多 维 扩展 。 

2. 分 段 散 列 函 数 ， 另 一 种 把 散 列表 思想 引 人 和 多维 数据 的 方式 。 

3. 多 键 索引 ， 属 性 4 上 的 索引 将 引 向 另 一 属性 B 上 的 索引 ， 对 属性 4 的 每 个 可 能 的 值 都 有 一 
个 对 应 的 属性 8 的 索引 。 i 

4. kd 树 ， 把 B 树 推广 到 点 集 的 一 种 方式 。 

5. 四 又 树 ， 结 点 的 每 个 子 结 点 代表 较 大 空间 的 一 个 象限 的 多 元 树 。 

6.R 树 ，B 树 的 一 种 推广 ， 适 用 于 区 域 的 集合 。 

最 后 ，14.4 节 讨论 一 种 称 为 位 图 索引 的 索引 结构 。 这 样 的 索引 是 在 给 定 字 段 上 具有 给 定 值 
的 记录 位 置 的 简洁 编码 。 目 前 ,它们 开始 在 主要 的 商用 DBMS 中 出 现 , 而 且 它 们 有 时 是 一 维 索 
引 的 很 好 的 选择 。 不 过 ， 它 们 也 可 以 用 作 回答 某 些 多 维 查询 的 有 力 的 工具 。 


14.1 需要 多 维 的 应 用 


我 们 将 考 虚 两 大 类 多 维 应 用 。 一 类 具有 地 理 的 特点 ， 其 中 的 数据 是 两 维 或 三 维 世界 中 的 元 
素 。 另 一 类 涉及 维 的 更 加 抽象 的 概念 。 大 略 地 说 ， 关 系 的 每 个 属性 都 可 以 看 成 -一 维 ， 而 所 有 的 
元 组 就 是 在 由 这 些 维 上 定义 的 空间 中 的 点 。 

舅 外 ， 本 节 中 将 分 析 传 统 的 索引 (如 B 树 ) 如 何 用 来 支持 多 维 查询 。 尽 管 在 有 些 情况 下 它 
们 是 以 解决 问题 ,但 是 在 一 些 例子 中 它们 显然 比 更 专门 的 结构 差 。 . 





CN 
Q 


14 


14.1.1 地 理 信 息 系统 

地 理 信息 系统 用 一 个 〈 通 常 是 ) 两 维 的 空间 存储 对 象 ， 对象 可 能 是 点 或 形状 。 通 常 ， 这 些 
数据 库 是 地 图 ， 其 中 存储 的 对 象 可 能 表示 房子 、 
路 、 桥 、 管 道 或 其 他 物理 对 象 。 图 14-1 所 示 就 
是 这 样 的 一 幅 地 图 。 

不 过 ， 地 理 信息 系统 也 还 有 许多 其 他 用 途 。 
例如 ， 一 个 集成 电路 设计 通常 是 由 称 为 “图 层 ” 
的 特定 材料 的 二 维 区 域 ( 常 为 矩形 ) 图 。 同 样 ， 
我 们 可 以 把 屏幕 上 的 窗口 和 图 标 看 成 是 二 维 空 
间 中 的 对 象 集合 。 

地 理 信息 系统 的 查询 并 不 是 一 般 的 SQL 查 
询 ， 尽 管 通过 某 些 努力 许多 查询 可 以 表达 成 
SQL 的 形式 。 这 类 查询 的 例子 如 下 ， 

1. 部 分 匹配 查询 。 指 定 一 维 或 多 维 上 的 值 ， 
并 查找 在 这 些 维 上 匹配 这 些 值 的 所 有 点 。 图 14-1 一 维 空间 中 的 对 旬 

2. 范围 查询 。 给 出 一 维 或 多 维 上 的 范围 ， 并 查找 在 这 些 范围 内 点 的 集合 ， 或 者 在 表示 形状 
时 查找 出 部 分 或 全 部 形状 在 该 范围 内 的 形状 的 集合 。 这 些 查询 推广 了 我 们 在 13.3.4 节 所 讨论 的 
一 维 范围 查询 。 

3. 最 邻近 查询 。 查 找 与 给 定点 最 近 的 点 。 例 如 ， 如 果 点 表示 城市 ， 我 们 可 能 想 找到 一 个 与 
给 定 的 小 城市 最 近 且 人 口 超过 100 000 的 城市 。 

4. Where-am-JI 查 询 。 已 知 一 个 点 ， 我 们 想 知 道 该 点 所 处 的 形状 ， 若 存在 这 样 的 形状 的 话 。 
一 个 熟悉 的 例子 是 当 你 点 击 鼠 标 时 ， 系 统 决定 你 点 击 的 是 哪个 显示 元 素 。 

14.1.2 数据 立方 体 

最 近 ， 一 类 称 为 数据 立方 体系 统 的 DBMS 得 到 发 展 ， 这 类 系统 将 数据 视 为 存在 于 一 个 高 维 
空间 中 。 这 些 在 20.5 节 会 有 更 详细 的 讨论 , 但 下 面 的 例子 表明 了 主要 的 思想 。 

许多 公司 为 了 决策 支持 应 用 而 收集 多 维 数据 ， 在 这 些 应 用 中 ， 公 司 分 析 像 销售 等 信息 以 便 
更 好 地 了 解 公司 的 运作 。 例 如 ， 一 个 连锁 店 可 能 记录 每 一 笔 销 售 ， 包 括 : 

1. 日 期 和 时 间 。 

2. 销售 所 在 的 商店 。 

3. 购买 的 商品 。 

4. 商品 的 颜色 。 

5. 商品 的 大 小 。 

以 及 其 他 可 能 的 销售 特征 。 

通常 ， 我 们 把 这 些 数 据 看 成 一 个 关系 ， 每 个 属性 对 应 一 个 特征 。 这 些 属 性 可 以 被 看 做 多 维 
空间 (“数据 立方 体 ”) 的 维 ， 每 个 元 组 是 该 空间 的 一 个 点 。 然 后 ， 分 析 人 员 可 以 按照 某 些 维 对 
数据 分 组 ， 并 通过 聚集 汇总 这 些 分 组 ， 一 个 典型 的 例子 就 是 “ 按 商 店 和 月 份 给 出 1998 年 粉红 色 
衬衫 的 销售 情况 ”。 

14.1.3 SQL 多 维 查询 

用 传统 的 关系 数据 库 来 建立 上 面 提 到 的 应 用 并 以 SQL 的 方式 实现 上 面 提 及 的 查询 是 可 能 

的 。 下 面 是 一 些 例 子 。 
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14.2 假如 我 们 希望 回答 关于 二 维 空间 点 集 的 最 邻近 查询 。 可 以 把 点 表示 成 一 个 由 实数 
对 组 成 的 关系 : 

Points (x, y) 
即 : 有 两 个 属性 x 和 y， 表 示 点 的 x 坐标 和 y 坐 标 。 这 里 没有 给 出 的 关系 Points 的 其 他 属性 可 能 
表示 点 的 特征 。 

假定 我 们 想 找 出 离 点 ( 10.0，20.0 ) 最 近 的 点 。 图 14-2 所 示 的 查询 能 找 出 最 近 的 点 或 点 集 。 
该 查询 对 于 每 一 个 点 p， 询 问 是 否 存在 另 一 个 离 点 (10.0, 20.0) 更 近 的 点 94。 上 距离 的 比较 是 通 
过 计算 点 〈10.0，20.0) 和 点 p、g 之 间 的 x 坐标 和 y 坐 标的 差 的 平方 和 来 实现 。 注 意 ， 我 们 没有 
取 和 的 平方 根来 得 到 实际 距离 ， 因 为 距离 平方 的 比较 同 距 离 本身 的 比较 是 一 样 的 。 口 


SELECT * 


FROM POINTS p 
WHERE NOT EXISTS( 
SELECT * 


FROM POINTS q 
WHERE (q.x-10.0)*(q.x-10.0) + (q.y-20.0)*(q.y-20.0) < 
(p.x-10.0)*(p.x-10.0) + (p.y-20.0)*(p.y-20.0) 





图 14-2 $e BEA (10.0, 20.0) 最 近 的 点 


例 14.3 ”矩形 是 地 理 系 统 中 常用 的 形状 。 我 们 可 以 用 多 种 方式 表示 算 形 ， 最 常见 的 一 种 是 
给 出 矩形 的 左下 角 和 右上 角 的 坐标 。 那 么 我 们 就 可 用 关系 Rectangles 来 表示 和 矩形 的 集合 ， 
系 Rectangles 由 一 个 矩形 标识 ID 和 四 个 描述 矩形 的 坐标 以 及 其 他 我 们 希望 记录 的 矩形 的 特 
征 构 成 。 在 这 个 例子 中 ， 我们 将 使 用 关系 


Rectangles (id,xll,yll,xur,yur) 


其 属性 分 别 为 : 矩形 标识 ID， 左 下 角 的 x 坐标 ， 左 下角 的 y 坐 标 和 右上 角 的 两 个 坐标 。 

图 14-3 所 示 查 询 是 查找 包含 点 ( 10.0，20.0 ) 的 矩形，wHERE 子 名 中 的 条 件 是 很 明显 的 。 
对 于 一 个 包含 点 (10.0，20.0 ) 的 矩形 ， 其 左下 角 的 x 坐标 必须 位 于 10.0 或 10.0 的 左边 ， y 坐 标 必 
须 位 于 20.0 或 低 于 20.0; 其 右上 角 必 须 是 x 10.0 和 y <<20.0。 口 


SELECT id 
FROM Rectangles 


WHERE x11 <= 10.0 AND yll <= 20.0 AND 
xur >= 10.0 AND yur >= 20.0; 


14-3 找 出 包含 给 定点 的 矩形 





例 14.4 ”适合 数据 立方 体系 统 的 数据 通常 组 织 成 一 个 事实 表 和 若干 维 表 ， 事 实 表 给 出 被 记 
录 的 基本 元 素 (如 每 笔 销售 )， 而 维 表 给 出 每 一 维 的 属性 值 的 特征 。 例 如 ， 如 果 销 售 所 属 的 商 
店 是 一 维 ， 则 该 维 表 可 能 包括 地 址 、 电 话 和 商店 经 理 的 姓名 。 

在 这 个 例子 中 ， 我 们 将 只 处 理事 实 表 ， 假 定 它 包括 在 14.1.2 节 提 到 的 维 。 即 事实 表 是 关系 : 


Sales (day, store, item, color, size) 


查询 “ 按 日 期 和 商店 汇总 粉红 色 衬 衫 的 销售 ”如 图 14-4 所 示 。 它 通过 日 期 和 商店 这 两 维 来 分 组 
组 织 销 售 ， 同 时 利用 COUNT 聚 集 操作 符 汇总 其 他 维 的 情况 。 通 过 利用 wHERE 子 句 仅 选择 粉红 衬 
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衫 的 元 组 ， 我 们 将 注意 力 集中 到 所 关心 的 点 。 口 


SELECT day, store, COUNT(*) AS totalSales 
FROM Sales 


WHERE item = ’shirt’ AND 
color = ’pink’ 
GROUP BY day, store; 





图 14-4 汇总 粉红 色 衬 衫 的 销售 


14.1.4 使 用 传统 索引 执行 范围 查询 

现在 , 让 我 们 来 考虑 第 13 章 讨论 的 索引 能 在 多 大 程度 上 帮助 回答 范围 查询 。 为 了 简单 起 见 ， 
假定 有 两 维 。 我 们 可 以 给 zx 和 y 这 两 维 中 的 每 一 维 都 建立 一 个 辅助 索引 。 为 每 一 维 都 建立 B 树 将 
会 使 获得 每 一 维 的 某 个 范围 内 的 值 变 得 特别 容易 。 

给 定 两 维 的 范围 ， 首 先 我 们 通过 x 的 B 树 索引 得 到 在 x 范围 内 的 所 有 记录 的 指针 。 然 后 ， 我 
们 通过 y 的 B 树 索引 得 到 在 y 范 围 内 的 所 有 记录 的 指针 。 最 后 ， 我 们 利用 13.2.3 节 的 思想 求 出 这 些 
指针 的 交集 。 如 果 主 存 能 存放 下 这 些 指针 ， 那 么 磁盘 1/O 的 总 数 是 每 个 B 树 中 需要 被 检查 的 叶 结 
点 的 数目 加 上 沿 着 B 树 查找 的 少量 IO 操作 ( 见 13.3.7 节 )。 在 此 基础 上 ， 我 们 必须 加 上 检索 所 有 
匹配 记录 所 需 的 磁盘 IO ， 不 论 它们 是 多 少 。 


例 14.5 ”让 我 们 考虑 一 个 由 1 000 000 个 点 构成 的 假想 点 集 ， 它 们 随机 分 布 在 一 个 x 坐标 和 y 
坐标 的 范围 都 是 0-1000 的 空间 中 。 假 定 每 个 存储 块 可 存放 100 个 点 ， 每 个 B 树 的 叶 结 点 大 约 有 
200 个 键 -指针 对 回想 一 下 ， 并 非 在 任何 时 候 B 树 块 的 每 个 槽 都 必须 占 满 )。 我 们 将 假定 在 x 和 y 
上 都 建 有 B 树 索引 。 | 

设想 我 们 有 一 个 范围 查询 ， 要 求 找 出 围绕 该 空间 中 心 边 长 为 100 的 正方 形 所 包含 的 点 。 即 
450 三 x 生 550 且 450 生 y 短 550。 利 用 x 的 B 树 索引 ， 我 们 可 以 找到 zx 值 在 该 范围 内 的 所 有 记录 的 指 
针 ， 大 约 有 100 000 个 指针 ， 这 个 数量 的 指针 应 该 可 以 在 主 存 中 存放 下 来 。 类 似 地 ， 我 们 利用 y 
的 B 树 索引 得 到 y 值 在 该 范围 内 的 所 有 记录 的 指针 ， 这 大 约 也 有 100 000 个 。 这 两 个 指针 集 的 交 
集 大 约 有 10 000 个 指针 ， 而 通过 这 10 000 个 指针 找到 的 记录 就 构成 了 我 们 的 答案 。 

现在 ， 让 我 们 来 估计 回答 这 个 查询 所 需要 的 磁盘 IO 数量 。 首 先 ， 正 如 我 们 在 13.3.7 节 中 提 
出 的 那样 ， 把 B 树 的 根 保存 在 主 存 是 可 行 的。 由 于 我 们 在 每 个 B 树 中 查找 某 个 范围 内 的 查找 键 
值 ， 且 叶 结 点 的 指针 按 查找 键 排 好 了 序 ， 因 此 在 访问 每 一 维 的 100 000 个 指针 时 我 们 需要 做 的 
是 检查 一 个 中 间 层 结 点 和 所 有 包含 所 需 指针 的 叶 结 点 。 因 为 假定 叶 结 点 包含 约 200 个 键 -指针 对 ， 
所 以 对 每 个 B 树 我 们 需要 查看 约 500 个 叶 结 点 块 。 当 再 加 上 每 个 B 树 的 一 个 中 间 结 点 时 ， 我 们 需 
要 的 磁盘 IO 总 数 为 1002。 

最 后 ， 我 们 需 检 索 包 含 这 10 000 个 所 需 记 录 的 块 。 如 果 它 们 随机 存放 ， 我 们 必须 预计 它们 
将 会 在 10 000 个 不 同 的 块 中 。 由 于 每 一 个 块 存放 100 个 记录 ， 整 个 100 万 条 记录 的 文件 假定 被 存 
储 在 10 000 个 块 中 ， 我 们 基本 上 需要 查看 数据 文件 的 每 个 块 。 这 样 ， 至 少 在 这 个 例子 中 ， 传 统 
的 索引 在 回答 范围 查询 方面 如 果 说 有 帮助 也 是 很 少 。 当 然 ， 如 果 范 围 很 小 ， 则 两 个 指针 集 的 交 
集 的 构造 将 使 得 我 们 把 查找 限制 在 数据 文件 块 的 一 小 部 分 中 。 口 


14.1.5 利用 传统 索引 执行 最 邻近 查询 

我 们 使 用 的 几乎 所 有 的 数据 结构 都 允许 我 们 来 回答 最 邻近 查询 : 在 每 一 维 上 选 定 一 个 
范围 ， 执 行 范围 查询 ; 并 且 选 择 该 范围 内 离 目 标 最 近 的 点 。 不 巧 的 是 ， 下 面 两 件 事情 可 能 
引起 间 题 : 


BRR G| ote ARG) 431 


1. 所 选 定 的 范围 内 没有 点 。 
2. 范围 内 最 近 的 点 可 能 总 的 来 说 不 是 最 近 的 点 。 


让 我 们 以 例 14.2 的 最 邻近 查询 为 背景 ， 考 虑 每 种 情况 ， 并 使 用 例 14.5 假 设 的 维 z 和 ?上 的 索 


引 。 如 果 有 理由 相信 和 与 点 〈10.0, 20.0) 距离 为 4 的 点 存在 ， 则 我 们 可 使 用 x 的 B 树 索引 来 得 到 所 
有 x 坐标 在 10 - 4 和 10+d 之 间 的 点 记录 的 指针 。 然 后 我 们 使 用 y 的 B 树 索引 来 得 到 所 有 y 坐 标 在 
20 - 4d 和 20+d 之 间 的 点 记录 的 指针 。 

如 果 在 交集 中 有 一 个 或 多 个 点 ， 并 且 记 录 了 每 个 点 的 zx 坐标 或 ?坐标 ( 即 索 引 的 查找 键 )， 
那么 我 们 就 有 交集 中 所 有 点 的 坐标 。 我 们 因此 可 决定 这 些 点 中 那个 离 点 ( 10.0，20.0 ) 最 近 并 
且 只 检索 该 记录 。 不 巧 的 是 ， 我 们 不 能 肯定 在 给 定点 的 4 范围 内 是 否 存 在 点 ， 因 此 可 能 不 得 不 
用 一 个 更 大 的 d 值 来 重复 整个 处 理 过 程 。 

然而 ， 即 使 在 我 们 搜索 的 范围 内 存在 点 ， 也 还 存在 该 范围 中 最 近 的 点 离 目 标点 ( 如 本 例 中 
的 《10.0, 20.0)) 的 距离 超过 ad 的 情况 。 这 种 情况 如 图 14-5 所 
示 。 如 果 情 况 是 这 样 ， 那 么 必须 扩大 我 们 的 范围 并 且 再 次 搜 
索 ， 从 而 确保 没有 更 近 的 点 存在 。 如 果 从 目标 点 到 目前 已 经 。 

发 现 的 最 近 点 的 距离 是 4， 且 4d ”>d， 则 我 们 必须 用 d 代替 l 


d 重新 搜索 。 SN 
14.6 ”让 我 们 考虑 与 例 14.5 同 样 的 数据 和 索引 。 如 果 
想 找 出 与 目标 点 P= (10.0, 20.0) 最 邻近 的 点 ， 我 们 可 以 选 he 
d=1。 此 外 ， 平 均 每 个 面积 单元 有 一 个 点 ， 并 有 由 于 d = 1， . D 
. 、 图 14-5 范围 内 存在 点 ， 但 可 能 
EJ- 0 2 点 ， 
我 们 找 出 围绕 点 P 边 长 为 2.0 的 正方 形 内 的 所 有 点 ， 其 预计 的 在 范围 外 在 在 着 更 近 的 点 


点 数 是 4。 

如 果 以 范围 查询 9.0<x<11.0 检 查 x 的 B 树 ， 那 么 我 们 将 找到 大 约 2000 个 点 ， 因 而 至 少 需要 
检索 10 个 叶 结 点 ， 也 很 有 可 能 是 11 个 〈 由 于 x = 9.0 的 点 很 有 可 能 不 恰好 在 一 个 时 结 点 的 开始 )。 
像 例 14.5 一 样 ， 我 们 可 以 把 B 树 的 根 保存 在 内 存 中 ， 因 而 对 于 中 间 的 结 点 我 们 只 需 一 次 磁盘 
VO; 且 对 于 叶 结 点 ， 我 们 需要 11 次 磁盘 VO 。 另 外 还 需要 12 次 磁盘 IO 来 搜索 "的 B 树 索引 中 ? 坐 
标 在 19.0~21.0 之 间 的 点 。 

如 果 我 们 在 主 存 中 对 这 将 近 4000 个 指针 求 交 ， 我 们 将 找到 大 约 4 个 最 邻近 于 点 (10.0, 20.0) 
的 候选 记录 。 假 定 至 少 有 一 个 ,我 们 能 从 与 指针 相关 的 x 坐标 和 y 坐 标 决 定 哪 一 个 是 最 邻近 点 。 
检索 这 个 所 需 记 录 需 要 另 一 次 磁盘 IO ， 这 样 完成 整个 查询 总 的 磁盘 IO 数 为 25。 不 过 ， 如 果 
d=1 的 正方 形 中 没有 点 ， 或 者 最 近 点 离 目 标点 的 距离 大 于 1， 那 我 们 不 得 不 用 一 个 更 大 的 d 来 重 
复 搜索 过 程 。 l 口 


从 例 14.6 得 出 的 结论 是 ， 传 统 索引 用 于 最 邻近 查询 可 能 并 不 很 糟 ， 但 它们 使 用 的 磁盘 IO 比 
已 知 键 值 和 该 键 上 的 B 树 索引 时 找 出 对 应 记录 所 需 IO 数 ( 可 能 只 需 2~3 次 磁盘 IO ) 多 得 多 。 本 
章 中 提出 的 方法 一 般 都 能 提供 更 好 的 性 能 ， 并 且 在 支持 多 维 数据 的 专用 DBMS 系 统 中 得 以 运用 。 
14.1.6 传统 索引 的 其 他 限制 

前 面 提 到 的 结构 为 范围 查询 提供 的 好 处 并 不 比 最 邻近 查询 大 。 事 实 上 ， 我 们 在 例 14.6 中 解 
决 最 邻近 查询 的 方法 是 把 它 转换 成 每 一 维 上 的 一 个 小 范围 的 范围 查询 ， 并 且 希 望 范围 足以 包括 
至 少 一 个 点 。 因 此 ， 如 果 需 要 处 理 更 大 范围 的 范围 查询 ， 而 数据 结构 是 各 维 上 的 索引 ， 那 么 检 
索 每 一 维 上 候选 记录 的 指针 所 需 的 磁盘 IO 数 将 会 比 我 们 在 例 14.6 中 看 到 的 大 很 多 。 

图 14-4 中 的 查询 的 多 维 聚 集 也 不 能 得 到 很 好 的 支持 。 如 果 在 商品 名 称 和 颜色 上 建 有 索引 ， 





A TE SAT: CORRE HE HF 
上 


FH 


我 们 就 能 够 找 出 表示 粉红 色 衬衫 的 所 有 销售 记录 并 对 它们 求 交 ， 就 像 我 们 在 例 14.6 中 所 做 的 那 
样 。 然 而 ， 指 定 基 于 商品 名 称 和 颜色 之 外 的 属性 的 查询 则 需要 使 用 这 些 属 性 上 的 索引 。 
更 糟 的 是 ， 虽 和 然 能 够 按 五 个 属性 中 的 任何 一 个 来 排序 数据 文件 ， 我 们 却 不 可 能 在 两 个 属性 
上 保持 数据 文件 的 有 序 ， 更 不 用 说 五 个 属性 。 困 此， 大 多 数 如 图 14-4 所 示 形 式 的 查询 都 需要 从 
所 有 或 几乎 所 有 的 数据 文件 块 中 检索 记录 。 如 果 数 据 是 保存 在 辅 存 中 ， 则 这 类 查询 的 执行 开销 
是 极其 昂贵 的 。 
14.1.7 多 维 索 引 结 构 综 述 
大 多 数 支 持 多 维 数据 查询 的 数据 结构 归于 以 下 两 类 之 一 : 
1. 类 散 列表 方法 。 
2. 类 树 方法 。 
对 于 其 中 的 每 一 种 ， 我 们 放弃 第 13 章 所 讨论 的 一 维 结构 的 一 些 特性 。 
* 对 于 基于 散 列 的 方法 〈( 14.2 节 中 的 网 格 文件 和 分 段 散 列 函数 )， 查 询 答案 恰好 就 在 一 个 桶 
中 这 一 优势 不 再 存在 。 不 过 ， 这 类 方法 中 的 每 一 种 都 把 我 们 的 搜索 限制 到 桶 的 子 集中 。 
“。 对 于 基于 树 的 方法 ， 我 们 至 少 放弃 B 树 的 下 列 重要 特征 之 一 : 
1. 树 的 平衡 ， 其 中 所 有 叶 结 点 位 于 同一 层 。 
2. 树 结 点 和 磁盘 块 的 对 应 。 
3. 数据 修改 执行 的 速度 。 
正如 我 们 将 在 14.3 节 看 到 的 那样 ， 树 经 常 是 一 部 分 比 另 一 部 分 深 ; 通常 深 的 部 分 对 应 于 点 
多 的 区 域 。 我 们 也 将 看 到 ， 通常 一 个 树 结 点 所 表示 的 信息 远 小 于 一 个 块 所 能 存放 的 信息 ， 因 此 
有 必要 以 某 种 有 用 的 方式 来 把 结 点 分 组 存 到 块 中 。 
14.1.8 习题 
习题 14.1.1 使 用 例 14.3 中 的 关系 
Rectangles (id, xll,yll,xur, yur) 
写 出 回答 下 列 问题 的 SQL 查询 ; 
* a 找 出 与 左下 角 为 ( 10.0，20.0 )、 右 上 角 为 《40.0,30.0 ) 的 矩形 相交 的 矩形 集 。 
b) 找 出 相交 的 矩形 对 。 
0) 找 出 完全 包含 (a) 中 提 到 的 矩形 的 所 有 和 矩形 。 
可 找 出 完全 包含 在 (a ) 中 提 到 的 矩形 中 的 所 有 矩形 。 
! e) 找 出 关系 Rectangles 中 不 是 真 的 “矩形 ”， 即 它们 实际 上 不 可 能 存在 。 
对 上 述 每 一 个 查询 ， 说 明 要 是 有 索引 的 话 ， 什 么 样 的 索引 将 会 有 助 于 检索 所 需 元 组 。 
习题 14.1.2 使 用 例 14.4 中 的 关系 


Sales (day, store, item, color, size} 


用 SQL 写 出 下 列 查询 : 
* a) 列 出 所 有 销售 量 超 过 1000 的 衬衫 颜色 及 其 销售 总 量 。 
b) 按 商店 和 颜色 列 出 衬衫 的 销售 。 
o) 按 商店 和 颜色 列 出 所 有 商品 的 销售 。 
! d) 按 商品 和 颜色 列 出 销售 量 最 大 的 商店 及 其 销售 量 。 
对 于 每 一 个 查询 ， 说 明 要 是 有 的 话 ， 什 么 样 的 索引 将 会 有 助 于 检索 所 需 元 组 。 
习题 14.1.3 ”假设 范围 查询 是 查询 大 小 为 nx 4 的 一 个 正方 形 ， 其 中 1<n<1000， 重 做 例 
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14.53 需要 多 少 次 磁盘 IO? n 为 何 值 时 索引 才 会 有 帮助 ? 
* 习题 14.1.4 ”如果 记 录 的 文件 按 x 排序 ， 重 做 习题 14.1.3。 
习题 14.1.5 ”假设 和 例 14.6 一 样 ， 点 随机 分 散在 正方 形 内 ， 并 且 我 们 想 执 行 一 个 最 邻近 查 
询 。 选 择 一 个 距离 4 并 找 出 中 心 在 目标 点 、 边 长 为 24 的 正方 形 中 的 所 有 点 。 如 果 我 们 在 这 
个 正方 形 中 至 少 找到 一 个 与 目标 点 距离 小 于 等 于 4 的 点 ， 则 搜索 是 成 功 的 。 
* a 如 果 每 个 面积 单元 平均 有 一 个 点 ， 给 出 4 的 一 个 函数 来 说 明 我 们 成 功 的 概率 。 
b) 如 果 不 成 功 ， 我 们 必须 用 一 个 更 大 的 d 来 重复 搜索 。 为 简单 起 见 ， 假 设 每 次 不 成 功 
时 ， 我 们 都 将 4 加 倍 且 花 费 的 开销 也 加 倍 。 再 次 假定 每 个 面积 单元 有 一 个 点 ，d 的 
初始 值 为 多 大 时 我 们 预计 的 搜索 开销 最 小 ? 


14.2 多 维 数据 的 类 散 列 结构 


在 本 节 中 , 我 们 将 考虑 由 使 用 单 键 建立 的 散 列表 推广 得 到 的 两 种 数据 结构 。 在 每 种 情况 下 ， 
点 的 桶 是 所 有 属性 或 维 的 函数 。 一 种 方法 称 为 “网 格 文件 ”， 它 通常 不 是 按 维 来 “ 散 列 ” 值 ， 
而 是 通过 排序 该 维 的 值 来 划分 该 维 ; 男 一 种 方法 称 为 “分 段 散 列 ”， 它 确实 “ 获 列 ”各 维 , 且 
每 一 维 都 影响 着 桶 号 。 

14.2.1 网 格 文件 

在 涉及 维 数据 的 查询 中 ， 通 常 比 单 维 索引 性 能 要 好 的 最 简单 的 数据 结构 之 一 是 网 格 文件 。 
想 一 想 划分 成 网 格 的 点 空间 。 在 每 一 维 上 网 格 线 把 空间 分 成 条 状 ， 落 在 网 格 线 上 的 点 被 认为 是 
属于 以 该 网 格 线 为 下 边界 的 条 。 不 同 维 的 网 格 线 的 数目 可 以 不 同 ， 并 且 相 邻 网 格 线 之 间 可 以 有 
不 同 的 间距 ， 其 至 在 同一 维 的 线 之 间 也 可 有 不 同 的 间距 。 

例 14.7 ”让 我 们 为 本 章 引 入 一 个 例子 : 问 “ 谁 买 金 首饰 ? ”设想 一 个 买 金 首饰 的 顾客 数据 
库 ， 它 告诉 我 们 有 关 各 个 顾客 的 许多 信息 一 一 姓名 、 地 址 等 。 不 过 ， 过 了 使 问题 简化 ， 我 们 假 
定 相关 的 属性 只 “有 厌 客 的 年 龄 和 薪水 。 我 们 的 示例 数据 库 中 有 12 个 顾客 。 我 们 可 以 把 它 表 示 成 
下 列 的 年 龄 -薪水 对 : 

(25, 60) (45, 60) (50, 75) (50, 100) 
(50, 120) (70, 110) (85, 140) (30, 260) 
(25, 400) (45, 350) (50, 275) (60, 260) 

在 图 14-6 中 我 们 看 到 ， 这 12 个 点 位 于 一 个 二 维 空间 中 。 我 们 还 在 每 一 维 上 选择 了 一 些 网 格 

线 。 对 这 个 简单 例子 ， 我 们 在 每 一 维 上 选择 了 两 根 网 格 线 ， 把 空间 分 成 九 个 矩形 ， 但 在 每 一 维 
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图 14-6 网 格 文件 
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上 选用 同样 数目 的 网 格 线 并 没有 什么 理由 。 我 们 还 使 线 之 间 的 间距 大 小 不 同 。 例 如 ， 在 年 龄 维 
土 ， 两 条 竖 直 线 把 空间 分 成 宽度 分 别 为 40、15 和 45 的 三 个 不 等 的 区 域 。 

在 这 个 例子 中 ,没有 点 正好 落 在 网 格 线 上 。 但 一 般 来 说 ， 一 个 和 矩形 包括 落 在 其 左边 界 和 下 
边界 上 的 点 ,但 不 包 插 落 在 其 右边 界 和 上 边界 上 的 点 。 例 如 ， 图 14-6 中 央 的 矩形 表示 的 点 的 范 
围 是 40 三 年 龄 <5$ 和 90 三 薪水 <225。 口 


14.2.2 网 格 文件 的 查找 

空间 划分 成 的 每 一 个 区 域 可 以 被 看 成 是 散 列表 的 一 个 桶 ， 落 入 该 区 域 的 每 个 点 的 记录 都 存 
放 在 属于 该 桶 的 块 中 。 如 有 必要 ， 溢 出 块 可 以 用 来 增加 桶 的 大 小 。 

与 传统 散 列表 中 使 用 的 一 维 桶 数组 不 同 ， 0-40 40.55 554 
网 格 文件 使 用 的 数组 的 维 数 与 数据 文件 的 维 数 
一 样 。 为 了 正确 定位 一 个 点 所 属 的 桶 ， 我 们 需 
要 知道 每 一 维 网 格 线 所 在 的 系列 值 。 因 此 ， 散 
列 一 个 点 与 在 它 的 分 量 值 上 运用 散 列 函数 多 少 
有 些 不 同 。 更 确切 地 说 ， 我 们 查找 点 的 每 一 个 
分 量 并 且 确 定 该 维 上 的 点 在 网 格 中 的 位 置 。 点 
在 每 一 维 的 位 置 一 起 决定 点 所 属 的 桶 。 

例 14.8 图 14-7 所 示 为 图 14-6 中 的 数据 在 桶 
中 的 存放 情况 。 由 于 在 两 维 上 网 格 都 把 空间 分 
成 了 三 个 区 域 ， 所 以 桶 数 是 一 个 3 x SAUER. 
其 中 的 两 个 桶 

1. 薪水 在 $90K 和 $225K 之 间 且 年 龄 在 0-40 
Zia], UR 

2. 薪水 低 于 $90K 且 年 龄 超过 55 





是 空 的 ， 且 我 们 没有 画 出 那 两 个 桶 的 块 。 其 他 图 14-7 表示 图 14-6 中 点 的 网 格 文件 
的 桶 全 被 画 出 , 且 人 为 地 使 每 个 桶 的 最 大 容量 小 到 每 个 存储 块 最 多 容纳 两 个 点 。 在 这 个 例子 中 ， 
没有 桶 超过 两 个 成 员 ， 因 而 不 需要 溢出 块 。 口 


14.2.3 网 格 文件 的 插入 


当 我 们 往 网 格 文件 中 插入 一 个 记录 时 , 遵循 查找 记录 的 过 程 并 把 新 记录 放 到 查找 到 的 桶 中 。 
如 果 在 该 桶 中 的 块 有 空间 ， 那 就 不 需要 做 更 多 的 事 。 如 果 在 桶 中 没有 空间 ， 那 问题 就 出 来 了 。 
通常 有 两 种 方法 解决 这 个 问题 : 

1. 按 需 要 给 桶 增加 溢出 块 。 只 要 桶 中 块 的 链 不 会 变 得 太 长 ， 这 种 方法 就 会 运行 良好 。 否则 ， 
用 来 查找 、 插 入 或 删除 的 磁盘 1/O 数 最 终 将 大 得 不 可 接受 。 

2. 通过 增加 或 移动 网 格 线 来 重组 结构 。 这 种 方法 类 似 于 13.4 节 讨论 的 动态 散 列 技术 ， 但 这 
里 还 有 别 的 问题 ， 因 为 桶 的 内 容 在 一 维 上 是 相互 关联 的 。 也 就 是 说 ， 增 加 一 条 网 格 线 将 分 裂 沿 
该 线 的 所 有 桶 。 因 此 ， 要 选择 一 条 对 所 有 桶 都 最 优 的 网 格 线 也 许 是 不 可 能 的 。 例 如 ， 要 是 一 个 
桶 太 大 ， 我 们 也 许 不 能 选择 分 裂 的 维 或 分 裂 的 点 且 不 会 造成 许多 的 空 桶 或 使 某 些 桶 太 满 。 

例 14.9 ”假若 有 一 个 52 岁 有 旦 收入 为 $200K 的 人 买 了 金 首饰 。 该 顾客 属于 图 14-6 中 央 的 矩形 。 
可 是 ,现在 该 桶 有 3 个 记录 。 我 们 可 以 简单 地 为 该 桶 增加 一 个 洲 出 块 。 如 果 我 们 想 分 烈 该 桶 ， 
那么 需要 选择 年 龄 维 或 者 薪水 维 ， 且 需要 选择 一 个 新 网 格 线 来 进行 划分 。 这 里 ， 引 人 网 格 线 对 
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中 央 桶 进行 分 型 并 使 两 个 点 在 一 边 而 一 个 点 在 另外 一 边 的 方法 只 有 三 种 ， 且 是 在 这 种 情况 下 最 
可 行 的 分 裂 。 

1. 一 条 垂直 线 ， 比 如 年 龄 =51， 它 把 两 个 50 岁 的 顾客 记录 同 52 岁 的 分 隔 开 来 。 这 条 线 对 上 、 
下 桶 的 分 裂 没有 什么 影响 ， 因 为 上 、 下 两 个 桶 中 的 两 个 点 都 在 线 年 龄 =51 的 左边 。 

2. 一 条 水 平 线 ， 它 把 中 央 桶 中 薪水 =200 的 点 同 其 他 两 个 点 分 隔 开 来 ， 我 们 不 妨 选择 像 130 [678 
这 样 的 数字 ， 它 同样 分 裂 右边 的 桶 ( 年龄 在 55 ~ 100 且 薪水 在 90 ~ 225 的 桶 )。 

3. 一 条 水 平 线 ， 它 把 薪水 =100 的 点 辐 其 他 两 个 点 分 隔 开 来 ， 这 次 我 们 建议 选择 像 115 这 样 
的 数字 ， 它 也 同样 分 裂 其 右边 的 桶 。 

选择 (1) 可 能 不 太 明 智 ， 因 为 它 没 有 分 裂 其 他 桶 ， 却 给 我 们 留 下 了 更 多 的 空 桶 ， 且 没有 减少 
任何 被 占用 的 桶 的 大 小 。 选 择 (2) 或 (3) 同 样 地 好 ， 虽 然 我 们 可 能 选 (2)， 因 为 它 把 水 平 线 放 在 薪 


访问 网 格 文件 的 桶 
虽然 在 一 个 如 图 14-7 所 示 的 3x3 的 网 格 中 为 点 查找 相应 的 坐标 比较 容易 ， 但 我 们 应 该 
记 住 网 格 文件 在 每 一 维 都 可 能 有 大 量 的 条 。 如 果 这 样 ， 那 我 们 必须 为 每 一 维 创 建 索引 。 
索引 的 查找 键 是 对 应 维 的 划分 值 。 
给 定 某 坐标 的 一 个 值 v， 我 们 搜索 小 于 等 于 v 的 最 大 键 值 w。 在 该 索引 中 与 w 相关 联 


的 是 v 落 入 敌阵 中 的 行 或 列 。 若 每 一 维 都 给 定 值 ， 我 们 就 能 够 找到 矩阵 中 指向 桶 的 指针 。 
然后 可 以 直接 检索 指针 指向 的 块 。 

BRIE, HERTS A; 从 而 使 得 大 多 数 桶 都 是 空 的 ， 而 我 们 又 负担 不 起 存储 
所 有 的 空 桶 。 这 时 ， 我 们 必须 把 矩 阵 当 作 一 个 关系 来 处 理 ， 它 的 属性 是 非 定 桶 的 顶点 且 
最 后 有 一 个 属性 表示 指向 桶 的 指针 。 查 找 这 个 关系 本 身 就 是 一 个 多 维 搜索 ， 但 它 的 大 小 
比 数据 文件 本 身 小 得 多 。 





水 =130， 它 比 (3) 更 接近 于 下 限 90 和 上 限 225 的 中 间 值 。 划 分 桶 的 结果 如 图 14-8 所 示 。 口 
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图 14-8 点 (52,200) 的 插入 及 其 后 桶 的 分 裂 


14.2.4 网 格 文件 的 性 能 
让 我 们 来 考虑 对 各 种 类 型 的 查询 网 格 文件 需要 多 少 磁 盘 IO 。 虽 然 网 格 文件 可 用 任意 数目 
的 维 ， 但 我 们 一 直 只 考虑 二 维 的 情况 。 对 于 高 维 的 情况 ， 一 个 主要 的 问题 是 随 着 维 数 的 增加 ， 
桶 的 数目 按 指数 级 增长 。 如 果 空 间 的 大 部 分 是 空 的 ， 那 将 会 有 许多 空 桶 。 即 使 在 二 维 时 我 们 也 
能 觉察 这 个 问题 。 假 若 在 年 龄 和 薪水 之 间 有 很 大 的 相关 性 ， 那 么 在 图 14-6 中 不 论 我 们 把 网 格 线 
放 在 哪里 ， 不 在 对 角 线 上 的 桶 都 将 会 是 空 的 。 
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不 过 ， 如 果 数 据 的 分 布 性 很 好 ， 且 数据 文件 本 身 又 不 太 大 ， 那 么 可 以 选择 网 格 线 ， 使 : 

1. 桶 足够 少 ， 这 样 我 们 能 够 将 桶 矩阵 存 人 主 存 中 ， 查 阅 桶 矩阵 或 者 当 我 们 播 和 人 一 条 新 网 格 
线 而 给 矩阵 增加 一 行 或 一 列 时 都 不 会 引起 磁盘 IO。 

2. 我 们 也 能 够 在 主 存 中 保存 每 一 维 上 网 格 线 的 值 的 索引 【 请 看 “访问 网 格 文件 的 桶 ” 框 )， 
或 者 我 们 能 够 一 并 避免 索引 而 使 用 主 存 的 二 分 查找 法 来 查找 每 一 维 上 定义 网 格 线 的 值 。 

3. 一 般 的 桶 只 有 少量 的 溢出 块 ， 因 而 当 我 们 搜索 桶 时 不 会 造成 太 多 的 磁盘 1/O。 
在 这 些 假定 下 ， 下 面 是 网 格 文件 在 一 些 重要 查询 类 中 的 表现 。 
具体 点 的 查找 

我 们 直接 找到 适当 的 桶 ， 因 而 惟一 的 磁盘 WO 就 是 读 人 该 桶 所 需 的 操作 。 如 果 我 们 进行 插 
入 或 删除 ， 则 还 需要 一 个 磁盘 写 操作 。 若 插入 需要 创建 溢出 块 ， 则 需 另 一 个 写 操作 。 
部 分 匹配 查询 

这 类 查询 的 例子 包括 “ 找 出 所 有 年 龄 为 50 岁 的 顾客 ”"， 或 “ 找 出 所 有 薪水 为 $200K 的 顾客 ”。 
现在 ,我 们 需要 查找 桶 矩阵 某 一 行 或 某 列 的 所 有 桶 。 如 果 在 这 些 行 或 列 上 有 许多 桶 ， 那 么 磁盘 
IO 的 数量 可 能 很 大 。 
范围 查询 

范围 查询 定义 网 格 的 一 个 矩形 区 域 , 且 在 覆盖 该 区 域 的 桶 中 找到 的 全 部 都 是 该 查询 的 答案 ， 
除了 搜索 范围 边界 上 的 桶 中 的 某 些 点 外 。 例 如 ， 如 果 我 们 想 找 出 所 有 年 龄 为 35 ~ 45、 薪 水 为 
50 ~ 100 的 顾客 ， 那 么 需要 在 图 14-6 左 下 方 的 四 个 桶 中 查找 。 在 这 个 例子 中 ， 所 有 的 桶 都 处 于 
边界 上 ， 因 此 我 们 可 能 查找 到 许多 不 是 查询 结果 的 点 。 不 过 ， 如 果 搜 索 区 域 包括 大 量 的 桶 ， 那 
么 大 多 数 桶 必定 是 内 部 的 ， 且 这 些 桶 的 所 有 点 都 是 查询 的 结果 。 对 于 范围 查询 来 说 ， 由 于 我 们 
需要 检查 许多 的 桶 ， 因 此 磁盘 WO 数 可 能 会 很 大 。 不 过 ， 由 于 范围 查询 一 般 得 到 一 个 大 的 结果 
R, 不论 如 何 组 织 , 我 们 检查 的 块 数 一 般 不 会 比 结果 所 需 的 最 小 块 数 目 多 很 多 。 
最 邻近 查询 

给 定 一 个 点 P， 首 先 查 找 该 点 所 属 的 桶 。 如 果 我 们 至 少 找到 了 一 个 点 ， 则 对 最 近邻 点 就 有 
了 一 个 候选 点 @。 不 过 ， 有 可 能 在 相 邻 桶 中 存在 比 Q 离 P 更 近 的 点 ， 这 种 情形 就 像 图 14-5 所 示 的 
那样 。 我 们 必须 考虑 P 到 该 桶 的 边界 的 距离 是 否 小 于 P 到 8 的 距离 。 如 果 存 在 这 样 的 边界 ， 那 么 
每 个 这 样 的 边界 的 相 邻 桶 也 必须 被 搜索 。 事 实 上 ， 如 果 桶 是 个 很 窗 的 矩形 ( 它 的 一 维 比 另 一 维 
长 很 多 )。 甚 至 还 可 能 需要 搜索 与 包含 点 P 的 桶 不 相 邻 的 桶 。 


例 14.10 ”假若 我 们 在 图 14-6 中 查找 点 P= (45, 200) 的 最 近 点 。 我 们 发 现 点 (50, 120) 
是 那个 桶 中 最 近 的 点 ， 距 离 为 80.2。 下 面 三 个 桶 中 都 不 存在 比 这 更 近 的 点 ， 因 为 它们 的 薪水 成 
分 最 多 为 90， 所 以 我 们 可 以 不 去 搜索 它们 。 但 是 ， 其 他 5 个 桶 必须 被 搜索 ， 且 我 们 找到 两 个 等 
距离 的 点 :〈《30，260 ) 和 (60，260 )， 与 P 的 距离 为 61.8。 一 般 来 说 ， 最 邻近 查询 可 以 被 限制 
到 一 小 部 分 桶 ， 因 此 只 需 少量 磁盘 1O。 不 过 ， 由 于 最 靠近 P 的 桶 可 能 为 空 ， 我 们 不 可 能 轻易 给 
出 查找 所 需 开 销 的 上 界 。 口 


14.2.5 分 段 散 列 函数 

散 列 函数 能 够 接受 一 个 属性 值 的 列表 作为 参数 ， 虽 然 它 们 一 般 只 散 列 一 个 属性 上 的 值 。 
例如 ， 如 果 a 是 一 个 整 型 值 属 性 ， 而 2 是 一 个 字符 串 型 值 属 性 ， 那 么 我 们 可 以 把 的 值 加 上 的 
每 一 个 字符 的 ASCII 码 值 再 除 以 桶 数 以 后 取 余数 。 结 果 可 用 作 属 性 对 Ca, b) 上 的 索引 的 散 列 
表 的 桶 号 。 
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不 过 ， 这 样 的 散 列 表 只 可 用 在 ae、z 值 都 被 指定 的 查询 。 一 个 更 好 的 选择 是 设计 一 个 散 列 函 
数 ， 使 它 产 生 若干 个 二 进 制 位 ， 比 如 说 kt 个 。 这 k 位 在 几 个 属性 中 进行 划分 ， 从 而 我 们 为 第 ;个 
属性 产生 位 散 列 值 ， 其 中 i=1, 2,…，m， 且 多 5 = 上 。 更 精确 地 说 ， 散 列 函 数 A 实 际 上 是 一 个 散 


HRR Ch, he, …, hn ) 的 列表 ， 其 中 每 个 h 运 用 到 第 i NREL ATA 右 位 二 进 制 位 序列 。 进 
行 散 列 时 ， 在 这 几 个 属性 上 值 为 (vi, v2,…, va) 的 元 组 所 属 的 桶 通过 拼接 二 进 制 序列 (vi)h2 
(V2)…hn(vn) 计 算得 到 。 

例 14.11 ”如 果 我 们 有 一 个 10 位 桶 数目 的 散 列 表 ( 1024 个 桶 )， 可 以 把 4 位 分 给 属性 a 而 其 
他 6 位 留 给 属性 p。 假 车 有 属性 a 值 为 4 H 5b 值 为 B 的 一 个 元 组 ， 可 能 还 有 其 他 一 些 没有 参与 
散 列 的 属性 。 利 用 与 属性 a 相应 的 散 列 函数 h 散 列 4 得 到 4 位 二 进 制 数 ， 比 如 说 为 0101。 然 后 我 
们 利用 散 列 函数 he 散 列 BB， 可 能 得 到 111000 这 样 6 位 二 进 制 数 。 那 么 这 个 元 组 的 桶 号 为 
0101111000， 即 两 个 二 进 制 位 序列 的 拼接 。 

通过 采用 分 段 散 列 函数 这 种 方式 ， 我 们 可 从 任何 一 个 或 多 个 参与 散 列 的 已 知 的 属性 值 中 得 
到 一 些 便利 。 例 如 ， 如 果 我 们 已 知 属性 a 的 值 4， 且 得 到 ha (4)=0101， 那 么 我 们 知道 只 有 包含 
属性 a 的 值 A 的 元 组 在 64 个 桶 中 ， 它 们 的 桶 号 形式 为 0101…， 这 里 … 表 示 任 意 的 6 位 二 进 制 数 。 
类 似 地 ， 如 果 给 定 一 个 元 组 的 属性 b 的 值 B， 我 们 可 以 分 离 可 能 存在 元 组 的 桶 为 16 个 桶 ， 这 些 桶 
号 以 6 位 二 进 制 数 hs (8) 结 尾 。 口 


例 14.12 ”假定 有 例 14.7 中 的 “ 金 首饰 ” 数据， 我们 想 把 它 存放 到 一 个 有 8 个 桶 的 分 段 散 列 
表 中 ( 即 3 位 桶 数目 )。 我 们 像 以 前 一 样 假设 每 央 能 存放 两 个 记录 。 我 们 把 一 位 给 年 龄 属性 ， 而 
HRP AB KE. | 

对 于 年 龄 上 的 散 列 函数 ， 我 们 取 年 龄 模 2;， 也 就 是 说 ， 年 龄 为 偶数 的 记录 将 散 列 到 桶 号 形 
式 为 0ry 的 桶 中 (有 若干 位 x 和 y); 年 龄 为 奇数 的 记录 散 列 到 桶 号 形式 为 1xy 的 桶 中 。 对 于 薪水 上 
的 散 列 函 数 ， 用 薪水 〈 以 千 为 单位 ) 模 4 来 得 到 。 例 如 ， 若 薪水 为 57K， 模 4 后 剩 下 余数 1， 则 
该 记录 所 属 桶 号 的 形式 为 z01( 有 若干 位 z)。 

在 图 14-9 中 ， 我 们 了 解 到 例 14.7 中 数据 在 这 种 散 列表 中 的 存放 情况 。 注 意 ， 因 为 我 们 使 用 
的 大 多 数 年 龄 和 薪水 都 可 被 10 除 尽 ， 散 列 函数 不 能 很 好 地 分 布 这 些 点 。8 个 桶 中 有 两 个 桶 存放 
了 4 个 记录 且 需 要 溢出 块 ， 而 其 他 3 个 桶 为 空 。 g 





图 14-9 分 段 散 列 表 
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| 14.2.6 网 格 文件 和 分 段 散 列 的 比较 
在 本 节 中 讨论 的 两 种 数据 结构 的 性 能 很 不 相同 ， 下 面 是 比较 的 要 点 : 
。 分 段 散 列 表 对 于 最 邻近 查询 或 范围 查询 实际 上 没有 什么 用 处 ,问题 在 于 点 之 间 的 物理 距 
离 并 没有 通过 桶 号 的 接近 反映 出 来 。 当 然 ， 我 们 可 以 在 某 属性 a 上 设计 散 列 函 数 ， 从 而 使 
最 小 值 分 配给 第 一 个 位 串 〈 全 0 )， 下 一 个 值 分 配给 下 一 个 位 串 ，( 00…01 )， 等 等 。 如 果 
这 样 做 的 话 ， 那 么 我 们 又 发 明了 一 种 网 格 文件 。 
。 选 择 一 个 好 的 散 列 肖 数 将 把 点 随机 地 散 列 到 各 个 桶 中 ， 这 样 ， 这 些 桶 将 趋 于 被 均匀 地 占 
用 。 然 而 网 格 文 件 ， 特 别 是 当 维 数 很 大 时 ， 易 于 留 下 许多 空 桶 或 几乎 都 是 空 桶 。 最 直观 
的 原因 在 于 ， 当 有 许多 属性 时 ， 至 少 有 一 些 属 性 ， 它 们 之 间 有 相关 性 是 很 可 能 的 ， 于 是 
空间 的 很 大 区 域 是 空 的。 例如 ， 我 们 在 14.2.4 节 提 到 的 年 龄 和 薪水 的 相关 性 将 导致 图 14-6 
| 中 大 多 数 点 位 于 对 角 线 附近 ， 使 大 多 数 矩 形 为 空 。 由 于 这 个 结果 ， 我 们 用 分 县 散 列 表 实 
现 会 比 网 格 文件 实现 使 用 更 少 的 桶 和 /或 更 少 的 溢出 块 。 
因此 ， 如 果 我 们 只 需要 支持 部 分 匹配 查询 一 一 指定 茶 属 性 的 值 而 不 指定 其 他 属性 ， 那 么 分 
段 散 列 函数 是 可 能 会 比 网 格 文件 好 。 相 反 ， 如 果 我 们 需要 经 常 做 最 邻近 查询 或 范围 查询 ， 那 么 
我 们 宁愿 选择 使 用 网 格 文件 。 
14.2.7 习题 
习题 14.2.1 ”在 图 14-10 中 是 12 台 PC 机 的 规格 说 明 ， 假 若 我 们 希望 只 在 速度 和 硬盘 大 小 上 
设计 索引 。 
* a) 选择 5 条 网 格 线 ( 两 维 的 总 数 ) 以 便 使 任何 桶 中 不 超过 两 个 点 。 
! b) 如 果 只 使 用 4 条 网 格 线 ， 每 桶 至 多 有 两 个 点 ， 你 能 分 隔 这 些 点 吗 ? 如 果 可 能 ， 则 画 
出 如 何 分 隔 ; 如 果 不 可 能 ， 则 解释 为 何不 可 能 ? 
[684] ! ec) 提出 一 个 分 段 散 列 函 数 ， 它 能 划分 这 些 点 到 4 个 桶 中 且 每 桶 不 超过 4 个 点 。 
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图 14-10 一 些 PC 机 和 它们 的 特性 










我 们 通常 把 桶 看 做 包含 有 价值 数据 的 一 个 块 。 可 是 ， 我 们 可 能 需要 创建 许多 桶 ， 以 
至 于 平均 每 个 桶 只 利用 块 的 一 小 部 分 来 存放 记录 。 例 如 ， 如 果 我 们 沿 每 一 维 都 进行 大 量 
划分 ， 高 维 数据 将 需要 许多 桶 。 因 此 ， 在 本 节 的 结构 和 14.3 节 基于 树 的 方法 中 ， 我 们 可 以 
选择 把 几 个 桶 (或 树 的 结 点 ) 存 入 一 个 块 中 。 如 果 我 们 这 样 做 ， 要 记 住 下 面 的 几 个 要 点 : 
* 块 必须 在 它 的 块头 中 保存 关于 每 个 记录 在 哪里 和 属于 哪个 桶 的 信息 。 







ZREG)| Poti ARF] 439 


*。 如 果 插 入 一 个 记录 到 桶 中 ， 我 们 可 能 在 包含 该 桶 的 块 中 找 不 到 空间 。 如 果 是 这 样 ， 


我 们 需要 按 某 种 方式 来 分 裂 块 。 我 们 必须 决定 哪些 桶 存 入 哪个 块 ， 找 出 每 个 桶 的 记 
录 并 且 把 它们 存放 到 适当 的 块 中 ， 并 且 调 整 桶 表 以 指向 适当 的 块 。 


! 习题 14.2.2 ”假定 我 们 希望 把 图 14-10 中 的 数据 放 到 一 个 基于 速度 、 内 存 和 硬盘 大 小 属性 的 
三 维 网 格 文件 中 ， 给 每 一 维 提出 一 个 划分 从 而 使 它 能 把 数据 划分 得 很 好 。 
习题 14.2.3 ”选择 一 个 分 段 散 列 函 数 ， 且 速度 、 内 存 和 硬盘 大 小 三 属性 各 为 一 位 二 进 制 数 ， 
使 它 能 很 好 地 划分 图 14-10 中 的 数据 。 
习题 14.2.4 ”假定 我 们 用 一 个 只 有 速度 和 内 存 的 二 维 网 格 文件 来 存放 图 14-10 中 的 数据 。 速 
度 维 上 的 划分 为 720、950、1150、1350， 内 存 维 上 的 划分 为 100 和 200。 还 假定 每 桶 只 能 存 
放 两 个 点 。 如 果 插 人 下 列 点 ， 试 提出 好 的 分 裂 ; 
* a) 速度 =1000 且 内 存 =192。 

b) 速度 = 800 且 内 存 = 128 ， 然 后 速度 = 833， 内 存 = 96。 
习题 14.2.5 ”假若 我 们 用 网 格 文件 来 存放 关系 R(x，y )。 两 个 属性 的 范围 是 0 ~ 1000。 该 
网 格 文件 的 划分 刚好 是 等 区 间 : 对 于 x 维 的 划分 单位 为 20， 即 20、40、60， 等 等 ; 而 对 于 y 
维 的 划分 单位 为 50， 即 50、100，150， 等 等 。 

a) 为 了 回答 下 面 的 范围 查询 ， 我 们 需 检 查 多 少 个 桶 ? 
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SELECT * 

FROM R 

WHERE 310 < x AND x < 400 AND 520 < y AND y < 730; 

*! b) 我 们 希望 对 点 (110, 205) 执行 一 个 最 邻近 查询 。 我 们 开始 搜索 左下 角 为 〈100， 
200 )、 右 上 和 角 为 (120，250 ) 的 桶 ， 并 且 发 现在 这 个 桶 中 最 近 点 为 (115，220 )。 
为 了 证 实 该 点 是 最 近 点 ， 还 要 搜索 哪些 桶 ? 
习题 14.2.6 ”假定 我 们 有 一 个 网 格 文件 ， 每 一 维 上 有 三 条 网 格 线 ( 即 四 个 条 )。 可 是 ， 点 
(x, y) 刚好 有 一 个 特殊 的 性 质 。 计 算 可 能 有 的 最 大 非 空 桶 数 ， 如 果 : 
* a) 点 处 于 一 条 线 上 ， 即 存在 常量 a 和 5b5， 对 于 每 一 个 点 (x，y ) 满足 y=ax+b。 

b) 点 具有 二 次 相关 性 ， 即 存在 常量 a、b 和 c， 对 于 每 一 点 (x, y) 满足 y=ax2+bx+tc。 
习题 14.2.7 假定 我 们 用 一 个 有 1024 个 桶 ( 即 10 位 桶 地 址 ) 的 分 段 散 列表 来 存放 关系 R (x, 
”y，Zz)。 每 个 关系 R 的 查询 恰好 指定 一 个 属性 ， 且 三 个 属性 被 指定 的 概率 相同 。 如 果 散 列 函 

数 基于 x 维 产生 5 位 二 进 制 数 ， 基 于 y 维 产生 3 位 二 进 制 和 基于 z 维 产生 两 位 二 进 制 数 。 那 么 

回答 一 个 查询 所 需要 的 平均 查找 的 桶 的 数目 是 多 少 ? 

!1 习题 14.2.8 ”假定 我 们 有 一 个 桶 号 为 0 ~ 2 - 1 的 散 列表 ， 即 桶 地 址 为 n 位 长 。 我 们 希望 把 有 

两 个 属性 x 和 y 的 关系 存放 到 这 个 表 中 。 任 何 查 询 可 指定 一 个 x 值 或 y 值 ， 但 不 能 同时 指定 。 

若 x 被 指定 的 概率 为 p: 

a) 假定 我 们 划分 散 列 函 数 使 m 位 给 x 维 而 其 余 n - m 位 给 y 维 。 对 于 回答 任意 一 个 查询 ， 
预计 需要 检查 多 少 桶 ， 给 出 一 个 m、n 和 p 的 函数 ? 
b) 什么 样 的 m 〈 作为 x 和 p 的 函数 ) 值 会 使 得 预计 桶 数 最 小 ?不 用 担心 m 可 能 不 是 整数 。 
*1 习题 14.2.9 ”假若 我 们 有 一 个 随机 分 布 的 1 000 000 个 点 的 关系 R(x，y )。x 和 y 的 范围 是 
0~1000。 我 们 可 以 在 每 个 块 中 存放 100 个 R 的 元 组 。 我 们 决定 使 用 每 一 维 上 等 间距 网 格 线 
的 网 格 文件 ， 且 m 为 条 的 宽度 。 我 们 希望 选择 一 个 m， 使 得 回答 一 个 边 长 为 50 的 正方 形 的 
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范围 查询 所 需 访 问 的 所 有 桶 的 磁盘 IO 数 最 小 。 你 可 以 假定 正方 形 的 边 与 网 格 线 从 不 在 一 
直线 上 。 如 果 我 们 选择 的 m 太 大 ， 在 每 个 桶 中 将 会 有 许多 溢出 块 ， 而 且 桶 中 的 许多 点 不 在 
查询 的 范围 之 内 ; 如 果 我 们 选择 的 m 太 小 ， 那 么 将 会 出 现 太 多 的 桶 ， 而 且 块 不 会 装 满 数 


据 。m 的 最 佳 值 为 多 少 ? 
143 多 维 数据 的 树 形 结构 


现在 ， 我 们 考虑 对 于 多 维 数据 的 范围 查询 和 最 邻近 查询 都 有 用 的 另外 四 种 结构 。 我 们 将 依 


次 考虑 : 
1. 多 键 索 引 。 
2. kd 树 。 
3. 四 叉 树 。 
4. R 树 。 


前 三 种 用 于 点 集 。R 树 通常 用 来 表示 区 域 的 集合 ， 也 可 用 来 表示 点 集 。 


14.3.1 多 键 索引 

假若 我 们 有 几 个 属性 表示 数据 点 的 维 ， 并且 我 们 
想 在 这 些 点 上 支持 范围 查询 或 最 邻近 查询 。 一 个 用 来 
访问 这 些 点 的 简单 的 树 形 模 式 是 索引 的 索引 ， 或 更 一 
般 的 一 棵 树 ， 它 的 每 一 层 的 结 点 都 是 一 个 属性 的 索引 。 

这 种 想法 如 图 14-11 所 示 ， 这 是 两 个 属性 的 情况 。 
“ 树 根 ”是 两 个 属性 中 第 一 个 属性 的 索引 ， 它 可 以 是 任 
何 类 型 的 常规 索引 ， 如 B 树 或 散 列 表 。 该 索引 把 每 一 个 
索引 键 值 一 - 即 第 一 个 属性 的 值 一 一 同 指向 另 一 个 索引 
的 指针 相关 联 。 如 果 VY 是 第 一 个 属性 的 一 个 值 ， 那 么 通 
过 键 值 V 和 它 的 指针 找到 的 索引 是 一 个 指向 这 些 点 集 的 
索引 ， 这 些 点 的 第 一 个 属性 值 是 Y， 而 第 二 个 属性 为 
任意 值 。 

例 14.13 ”图 14-12 显 示 了 一 个 我 们 一 直 在 用 的 “人 金 
首饰 ”例子 的 多 键 索引 ， 它 的 第 一 个 属性 为 年 龄 ， 而 第 
二 个 属性 为 薪水 。 关 于 年 龄 根 索 引 , 如 图 14-12 左 边 所 示 。 
我 们 没有 指出 索引 如 何 运作 。 例 如 ， 键 -指针 对 形成 那个 
索引 的 7 行 可 能 分 散在 B 树 的 叶 结 点 中 。 不 过 ， 最 重要 的 
是 不 论 年 龄 是 一 个 还 是 多 个 数据 点 都 只 用 一 个 键 表示 ， 
而 且 索 引 使 得 查找 与 给 定 键 值 相 关 的 指针 很 容易 。 

在 图 14-12 的 右边 是 提供 访问 点 本 身 的 7 个 索引 。 
例如 ， 如 果 根 据 根 索引 找到 与 年 龄 为 50 相 关联 的 指针 ， 
我 们 得 到 一 个 以 薪水 为 索引 键 的 更 小 的 索引 ， 且 索引 
中 的 4 个 索引 键 值 是 与 年 龄 为 90 的 点 相关 联 的 4 个 薪水 
值 。 我 们 再 次 没有 在 图 中 指出 索引 如 何 实现 。 仅 指出 
它 所 关联 的 键 -指针 对 。 当 我 们 跟踪 与 这 些 值 (75、 
100、120 和 275 ) 各 自 相 关 的 指针 时 ， 我 们 就 找到 各 自 





第 一 个 属性 O 〇 
上 的 索引 ro) 
第 二 个 属性 上 
的 索引 


图 14-11 在 不 同 键 上 使 用 舱 套 索引 





图 14-12 对 年 龄 /薪水 数据 的 多 级 索引 
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表示 的 记录 。 人 例如， 跟踪 与 100 相 关联 的 指针 ， 我 们 找到 了 年 龄 为 90、 薪 水 为 $S100K 的 人 。 O 


在 多 键 索 引 中 ， 有 些 第 二 或 更 高 级 的 索引 可 能 会 很 小 。 例 如 ， 图 14-12 有 4 个 只 有 一 个 键 - 
指针 对 的 第 二 级 索引 。 因 此 ， 把 几 个 简单 表 压 缩 到 一 个 块 中 来 实现 这 些 索引 可 能 是 合适 的 ， 这 
种 方法 在 14.2.$ 节 的 “处 理 小 桶 ” 框 中 提 到 过 。 

14.3.2 多 键 索引 的 性 能 

让 我 们 考虑 多 键 索引 如 何在 各 种 不 同 的 多 维 查询 上 实现 。 我 们 将 集中 在 两 个 属性 的 情形 ， 
虽然 推广 到 多 于 两 个 属性 并 不 使 人 感到 意外 。 
部 分 匹配 查询 

如 果 第 一 个 属性 被 指定 ， 那 么 访问 是 很 有 效 的 。 我 们 使 用 根 索 引 找 到 一 个 子 索 引 ， 该 子 索 
引 引 导 我 们 到 想 要 的 点 上 。 例 如 ， 如 果 根 是 一 个 B 树 索引 ， 那 么 我 们 将 执行 两 三 次 磁盘 IO 去 找 
到 合适 的 子 索 引 ， 然 后 使 用 相应 的 MO 来 访问 那个 子 索引 和 数据 文件 本 身 的 点 。 另 一 方面 ， 如 
果 第 一 个 属性 没有 给 出 一 个 指定 值 ， 那 我 们 必须 搜索 每 一 个 子 索 引 ， 这 是 一 个 潜在 的 、 耗 时 的 
处 理 过 程 。 
范围 查询 

要 是 单个 索引 本 身 在 它 们 各 自 的 属性 上 支持 范围 查询 〈 例如， 若 它们 是 B 树 索引 )， 多 键 索 
引 对 范围 查询 就 会 运作 得 很 好 。 为 了 回答 一 个 范围 查询 ， 我 们 使 用 根 索 引 和 第 一 个 属性 的 范围 
找 出 可 能 包含 答案 点 的 所 有 子 索 引 。 然 后 我 们 使 用 第 二 个 属性 的 指定 范围 搜索 每 个 子 索引 。 

例 14.14 ”假定 我 们 有 图 14-12 的 多 键 索 引 并 且 要 求 作 年 龄 在 35 ~ 55 之 间 、 薪 水 在 100 ~ 200 
之 间 的 范围 查询 。 当 我 们 检查 根 索 引 时 ， 发 现 键 45 和 50 是 在 年 龄 范围 之 内 。 按 照相 关联 的 指针 
找到 有 关 薪 水 的 两 个 子 索引 。 年龄 为 45 的 子 索引 中 没有 在 100 ~ 200 之 间 的 薪水 ， 而 年 龄 为 50 的 
子 索引 中 有 两 个 薪水 : 100 和 120。 这 样 。 在 范围 内 仅 有 两 个 点 ,它们 是 (50, 100) 和 (50, 
120), 口 
最 邻近 查询 

用 多 键 索引 回答 最 邻近 查询 使 用 同 本 章 几 乎 所 有 的 数据 结构 实现 最 邻近 查询 一 样 的 策略 。 
为 了 找 出 点 (x yo) 的 最 邻近 的 点 ， 我 们 给 出 一 个 距离 4， 以 便 期 望 能 找到 与 点 (xo, yo) AOE 
离 小 于 等 于 qd 的 几 个 点 。 然 后 我 们 再 执行 xo - dx 所 xotd 和 yo -dy 万 y+d 的 范围 查询 。 如 果 在 
这 个 范围 内 证 明 是 不 存在 点 ,或 者 如 果 存 在 点 ， 但 该 点 与 (xo，yo ) 的 距离 大 于 qd( 像 14.1.5 节 
讨论 的 那样 ， 在 该 范围 之 外 可 能 有 更 近 的 点 )， 那 么 我 们 必须 增加 范围 ， 并 且 再 次 查找 。 不 过 ， 
我 们 可 以 依次 搜索 以 便 最 近 的 地 方 被 先 查找 。 

14.3.3 kd 树 

kd 树 (Kk 维 搜索 树 ) 是 把 二 又 搜索 树 推广 到 多 维 数据 的 一 种 主 存 数据 结构 。 我 们 将 先 介绍 
这 种 思想 ， 然 后 讨论 怎样 使 这 种 思想 适合 存储 的 块 模型 。kd 树 是 一 个 二 叉 树 ， 它 的 内 部 结 点 有 
一 个 相关 联 的 属性 a 和 一 个 值 Y， 它 将 数据 点 分 成 两 个 部 分 : a 值 小 于 V 的 部 分 和 a 值 大 于 等 于 V 
的 部 分 。 由 于 所 有 维 的 属性 在 层 间 循环 ， 所 以 树 的 不 同 层 上 的 属性 是 不 同 的 。 

在 一 般 的 kd 树 中 ， 数 据点 被 存放 在 结 点 内 ， 就 像 在 二 又 搜索 树 中 一 样 。 不 过 我 们 在 开始 引 
入 这 种 思想 时 做 了 两 个 修改 ， 以 便 获得 块 模式 的 有 限 益处 : 

1. 内 部 结 点 只 有 一 个 属性 ， 该 属性 的 一 个 划分 值 和 指向 左 、 右 子女 的 指针 。 

2. 叶 结 点 是 块 ， 块 空间 中 存放 着 尽 可 能 多 的 记录 。 

例 14.15 在 图 14-13 中 是 一 棵 我 们 一 直 在 用 的 金 首饰 示例 库 的 12 个 点 的 kd 树 。 为 简单 起 见 ， 
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我 们 使 用 只 能 存放 两 个 记录 的 块 。 这 些 块 和 它们 中 的 内 容 显示 在 正方 形 的 叶 结 点 中 。 内 部 结 点 
是 有 一 个 属性 一 年 龄 或 薪水 一 一 和 一 个 值 的 椭圆 。 例 如 ， 根 用 薪水 属性 来 分 裂 : 左 子 树 中 的 
所 有 记录 的 薪水 小 于 $150K， 而 右 子 树 的 所 有 记录 的 薪水 至 少 是 $150K。 

在 第 二 层 ， 用 年 龄 属性 来 分 裂 : 根 的 左 子 树 以 年 龄 为 60 来 分 裂 ， 因 此 在 它 的 左 子 树 中 的 所 
有 记录 将 是 年 龄 小 于 60 且 薪水 少 于 $150K， 在 它 的 右 子 树 中 的 所 有 记录 将 是 年 龄 至 少 为 60 且 薪 
水 少 于 $150K。 图 14-14 表 明了 各 个 内 部 结 点 是 如 何 分 裂 点 空间 到 叶 结 点 块 中 的 。 例 如 ， 薪 水 为 
150 的 水 平 线 表示 根 结 点 上 的 分 裂 。 线 下 方 的 空间 在 年 龄 为 60 处 被 垂直 分 裂 ， 而 上 方 的 空间 在 
年 龄 为 47 处 分 裂 ， 它 对 应 于 根 结 点 右 子 女 的 结果 。 口 








图 14-13 kd 树 


14.3.4 kd 树 的 操作 

查找 一 个 所 有 维 都 给 定 值 的 元 组 的 处 理 如 同 在 二 叉 树 中 一 样 。 我 们 在 每 个 内 部 结 点 上 决定 
沿 哪个 走向 ， 并 且 被 引 向 我 们 所 搜索 的 单个 叶 结 点 的 块 。 

为 了 实现 一 个 插入 ， 我 们 先 做 一 个 查找 。 最 后 我 们 找到 一 个 叶 结 点 ， 如 果 叶 结 点 的 块 中 还 
有 空间 ， 就 把 新 的 数据 点 放 在 那里 ; 要 是 没有 空间 ， 我 们 把 块 分 裂 成 两 个 ， 并 根据 分 裂 叶 结 点 
所 在 层 的 相应 属性 划分 叶 结 点 中 的 内 容 。 最 后 ， 我 们 创建 一 个 新 的 内 结 点 ; 它 的 子 结 点 为 分 列 
的 两 个 新 块 ， 并 且 给 该 内 结 点 一 个 与 分 裂 相对 应 的 划分 值 ” 。 


500K 


Fk 





图 14-14 图 14-13 中 的 树 所 隐 含 的 划分 


O 可 能 会 引起 问题 的 情况 是 : 对 于 给 定 维 上 存在 着 许多 相同 值 的 点 且 对 于 该 维 桶 中 只 有 一 个 值 ， 因 而 无 法 被 分 
裂 。 我 们 可 以 试图 沿 着 其 他 维 来 分 裂 ， 或 是 使 用 溢出 块 。 
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例 14.16 假若 某 个 年 龄 为 353 且 薪水 为 $500K 的 人 买 了 金 首 饰 。 从 根 开始 ， 我 们 已 知 薪水 至 
少 是 $150K， 因 而 往 右 边 走 ; 在 该 右 结 点 处 ， 拿 年 龄 35 跟 年 龄 47 比 较 ， 它 使 我 们 往 左边 ; 在 第 
三 层 上 ,我 们 再 次 比较 薪水 ， 且 我 们 的 薪水 大 于 划分 值 $300K.。 因 此 我 们 被 引 向 包含 点 (25， 
400) 和 (45，350 ) 的 叶 结 点 ， 新 点 (35, 500) 需 插入 该 块 。 

在 该 块 中 存放 不 下 三 个 记录 ， 因 而 我 们 必须 分 裂 该 块 。 第 四 晨 是 按 年 龄 来 分 烈 ， 所 以 得 选 
择 某 个 年 龄 来 尽 可 能 均匀 地 划分 这 些 记 录 。 中 间 值 35 是 一 个 不 错 的 选择 ， 这 样 我 们 就 用 分 裂 值 
为 35 的 内 结 点 取代 该 叶 结 点 。 该 内 结 点 的 左边 是 只 有 一 个 记录 (25, 400) 的 叶 结 点 块 ， 而 右 
边 是 有 另外 两 个 记录 的 叶 结 点 块 ， 如 图 14-15 所 示 。 g 





图 14-15 插入 点 (35, 500) 后 的 树 


在 本 章 中 讨论 的 更 为 复杂 的 查询 也 可 以 被 kd 树 支持 。 下 面 是 算法 的 关键 思想 和 梗概 。 
部 分 匹配 查询 

如 果 给 定 某 些 属性 的 值 ， 那 么 当 处 于 属性 值 已 知 的 层 的 结 点 上 时 ， 我 们 可 以 往 一 个 方向 
走 ; 当 处 于 属性 值 未 知 的 结 点 上 时 ， 必 须 考察 它 的 两 个 子 结 点 。 例 如 ， 如 果 我 们 找 出 图 14-13 
的 树 中 的 所 有 年 龄 为 50 的 点 ， 必 须 考察 根 的 两 个 子 结 点 ， 因 为 根 是 按 薪 水 来 分 裂 的 。 可 是 ,在 
根 的 左 子 结 点 上 , 我 们 只 需要 往 左 走 ; 在 根 的 右 子 结 点 上 , 我 们 也 只 需 考 察 它 的 右 子 树 。 又 如 ， 
假定 树 是 完全 平衡 的 ， 有 大 量 的 层 并 且 有 两 维 ， 其 中 有 一 维 的 值 在 搜索 中 是 给 定 的 ， 那 么 我 们 
将 不 得 不 使 用 这 两 种 方式 来 考察 其 余 各 层 结 点 ， 直 到 达到 叶 结 点 数 的 平方 根 。 
范围 查询 

有 时 一 个 范围 允许 我 们 移动 到 结 点 的 惟一 的 一 个 子 结 点 , 但 如 果 范 围 跨越 了 结 点 的 划分 值 ， 
那么 我 们 就 必须 考察 两 个 子 结 点 。 例 如 ， 给 定 一 个 年 龄 范围 35 ~ 55 和 一 个 薪水 范围 $100K ~ 
$200K， 考 察 图 14-13 的 树 如 下 ; 在 根 结 点， 薪水 范围 跨越 了 $150K， 因 此 考察 它 的 两 个 子 结 点 : 
在 左 结 点 ， 范 围 完全 属于 左边 ， 这 样 我 们 前 进 到 薪水 为 $80K 的 结 点 。 现 在 ， 范 围 又 完全 属于 
右边 ,这 样 我 们 就 搜索 到 记录 为 (50，100 ) 和 (50, 120) 的 叶 结 点 ， 两 个 记录 都 符合 查询 范 
围 。 回 到 根 的 右 结 点 ， 划 分 值 年 龄 为 47 告 诉 我 们 查看 两 个 子 树 : 在 薪水 为 $300K 的 结 点 上 ， 我 
们 只 需 往 左前 进 ， 找 到 点 (30, 260), 它 实际 上 超出 了 范围 ， 在 年 龄 为 47 的 右 结 点 ， 我 们 找到 
两 个 点 ， 它 们 都 超出 了 范围 。 
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无 长 久之 事 

本 章 讨 论 的 每 种 数据 结构 应 允许 插入 和 删除 。 它 们 根据 局 部 的 判断 来 重组 结构 。 多 
次 数据 库 更 新 后 ， 这 些 局 部 判断 的 结果 使 得 结构 在 某 些 方面 不 平衡 。 例 如 ， 网 格 文件 可 
能 有 太 多 的 空 桶 ， 或 kd 树 可 能 很 不 平衡 。 

经 过 一 段 时 间 后 ， 任 何 数 据 库 都 需要 重 构 是 十 分 正常 的 。 至 少 在 这 个 时 候 ， 我 们 有 
机 会 创建 索引 结构 且 尽 可 能 使 得 这 个 索引 平衡 和 有 效 。 这 种 重 构 的 开销 能 够 由 大 量 导 致 
不 平衡 的 更 新 来 捧 还 ,使 每 个 这 样 的 更 新 的 开销 变 小 。 可 是 ， 我 们 确实 需要 能 够 “关闭 
BBR”, P: 使 得 数据 库 在 被 重 装 时 不 可 用 。 这 种 情况 可 能 是 个 问题 也 可 能 不 是 ， 这 依 
闲 于 应 用 。 例 如 ， 在 晚间 ， 当 没有 人 访问 它们 时 ,许多 数据 库 被 关闭 。 


最 邻近 查询 

使 用 在 14.3.2 节 讨论 的 方法 。 把 这 个 问题 当 作 一 个 适当 的 范围 查询 来 处 理 。 如 有 必要 ， 用 
一 个 更 大 的 范围 重 做 。 
14.3.5 ”使 kd 树 适合 辅 存 

假定 我 们 用 一 个 有 n 个 叶 结 点 的 kd 树 存放 文件 ， 那 么 从 根 到 叶 结 点 的 路 径 的 平均 长 度 将 大 
约 是 logzn， 如 同 任何 二 叉 树 一 样 。 如 果 每 块 存放 一 个 结 点 ， 那 么 当 我 们 遍历 一 条 路 径 时 ， 必 须 
为 每 个 结 点 作 一 次 磁盘 IO。 例 如 ， 如 m=1000， 那 么 需要 大 约 10 次 磁盘 IO ， 远 远 超过 通常 B 树 
的 2 ~ 3 次 磁盘 IO 一 即使 是 一 个 十 分 大 的 文件 。 另 外 ， 由 于 kd 树 内 部 结 点 的 信息 相对 较 少 ， 
块 的 大 部 分 空间 将 被 浪费 掉 。 

我 们 无 法 彻底 解决 长 路 径 和 未 用 空间 这 一 对 杰 生 问题 。 不 过 ， 下 面 的 两 种 方法 将 会 在 性 能 
上 做 些 改进 。 
内 结 点 的 多 分 梳 

要 是 有 许多 键 -指针 对 ，kd 树 的 内 结 点 看 起 来 更 像 B 树 结 点 。 如 果 在 结 点 上 有 1 个 键 ， 我 们 
能 够 把 属性 a 的 值 分 裂 成 n+1 个 范围 。 如 果 有 n+1 个 指针 ， 我 们 能 够 沿 着 适当 的 指针 到 只 包含 属 
性 a 值 在 那个 范围 内 的 点 的 子 树 。 当 我 们 为 了 保持 分 布 和 平衡 一 -就 像 我 们 为 B 树 所 做 的 那 
样 一 设法 重组 结 点 时 ， 问 题 就 来 了 。 例 如 ， 假 若 我 们 有 一 个 年 龄 上 分 裂 的 结 点 且 需 要 合并 它 
的 两 个 子 结 点 ， 它 们 都 是 按 薪水 分 裂 。 我 们 不 能 简单 地 把 两 个 子 结 点 的 薪水 范围 弄 到 一 个 结 点 
中 ， 因 为 这 些 范 围 一 般 会 有 部 分 重 和 至。 注意 ， 如 果 ( 像 在 B 树 中 那样 ) 两 个 子 结 点 进一步 优化 
年 龄 范围 ， 这 会 变 得 多 么 的 容易 。 
聚集 内 结 点 到 块 

我 们 可 以 保持 树 的 结 点 只 有 两 个 子 结 点 的 思想 。 我 们 能 把 多 个 内 结 点 压缩 到 一 个 块 中 。 为 
了 减少 遍历 路 径 访 问 的 块 数量 ， 我 们 最 好 远离 一 个 结 点 一 个 块 的 方式 而 将 若干 层 的 所 有 子 结 点 
存 人 一 个 块 。 在 这 种 方式 下 , 一旦 检索 到 该 结 点 的 块 ,我 们 必定 会 使 用 该 块 中 的 其 他 某 些 结 点 ， 
这 样 节省 了 磁盘 MO。 例 如 ， 假 车 把 三 个 结 点 压缩 到 一 块 。 那 么 在 图 14-13 的 树 中 ， 我 们 把 根 和 
它 的 两 个 子 结 点 存 人 到 一 个 块 中 。 然 后 我 们 压缩 薪水 为 80 的 结 点 和 它 的 左 子 结 点 到 一 个 块 。 剩 
下 薪水 为 300 的 结 点 ， 把 它 放 在 一 个 单独 的 块 中 。 或 许 它 与 后 面 两 个 结 点 共享 一 个 块 ， 虽 然 当 
树 增长 或 收缩 时 ， 共 享 需要 我 们 做 相当 的 工作 。 因 此 ， 如 果 想 查找 记录 (25, 60), RIRE 
要 遍历 两 个 块 ， 尽 管 我 们 搜索 了 四 个 内 结 点 。 
14.3.6 四 叉 树 

在 一 个 四 又 树 中 ， 每 个 内 结 点 对 应 于 二 维 空 间 中 的 一 个 正方 形 区域 ， 或 是 k 维 空间 的 k 维 立 
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方 体 。 像 本 章 中 的 其 他 数据 结构 一 样 ， 我 们 将 主要 考虑 二 维 的 情形 。 如 果 一 个 正方 形 中 的 点 数 
不 比 一 个 块 中 能 存放 的 数 多 ， 那 么 我 们 就 把 这 个 正方 形 看 做 树 的 叶 结 点 ， 并 且 由 存放 它 的 点 的 
块 表示 ; 如 果 正 方形 中 还 有 太 多 的 点 以 至 于 一 个 块 存放 不 下 ， 那 么 我 们 就 把 这 个 正方 形 看 做 内 
结 点 ， 它 的 子 结 点 对 应 于 它 的 四 个 象限 。 


例 14.17 ”图 14-16 显 示 了 被 组 织 成 对 应 于 四 叉 树 结 点 区 域 的 金 首饰 的 数据 点 。 为 了 计算 的 
便利 ， 我 们 限制 了 可 用 的 空间 : 薪水 范围 在 0~$400K 之 间 ， 而 不 是 像 在 本 章 中 其 他 例子 那样 达 
到 $500K。 我 们 继续 假定 每 个 块 只 存放 两 个 记录 。 

图 14-17 清 楚 地 显示 了 这 种 树 。 对 于 象限 和 结 点 的 子 结 点 ， 我 们 使 用 指南 针 的 标示 法 ( 例 
如 ，SW 代 表 西 南 象 限 一 -在 中 心 左下 方 的 点 )。 子 结 点 的 顺序 总 是 如 同 在 根 结 点 所 标识 的 那样 。 
每 个 内 结 点 指出 该 区 域 的 中 心 坐标 。 








图 14-16 组 织 成 四 叉 树 的 数据 


由 于 整个 空间 有 12 个 点 且 一 个 块 中 只 存放 两 个 点 ， 我 们 必须 把 空间 分 裂 成 象限 ， 我 们 在 图 
14-16 中 用 短 划 线 标示 。 两 个 结果 象限 一 -西南 和 东北 一 一 只 有 两 个 点 。 它 们 可 以 用 叶 结 点 来 表 
示 且 不 需要 进一步 分 裂 。 











图 14-17 四 叉 树 
剩 下 的 两 个 象限 都 有 多 于 两 个 点 。 两 个 都 被 分 裂 成 子 象 限 ， 如 图 14-16 中 点 线 所 示 。 每 个 [695 
结果 象限 都 有 两 个 或 更 少 的 点 ， 因 市 不 需 更 多 的 分 裂 。 口 


由 于 一 个 k 维 的 四 又 树 的 内 结 点 有 2 个 子 结 点 ， 因 而 存在 一 个 [的 范围 ， 使 得 结 点 能 方便 地 





[697] 
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装 入 块 中 。 例 如 ， 车 128 即 27 的 指针 能 在 一 个 块 中 存放 下 ， 则 k=7 是 一 个 合适 的 维 数 。 不 过 ， 对 
于 二 维 的 情形 ， 情 况 并 不 比 kd 树 好 多 少 ， 一 个 内 结 点 有 4 个 子 结 点 。 此 外 ， 我 们 能 够 为 kd 树 选 
择 一 个 分 裂 点 ， 可 我 们 被 约束 在 四 叉 树 区 域 的 中 心 ， 它 可 能 能 也 可 能 不 能 把 该 区 域 的 点 均匀 地 
划分 。 尤 其 当 维 数 很 大 时 ， 我 们 可 能 在 内 结 点 中 会 找到 许多 空 指针 ( 对 应 于 空 象限 )。 当 然 我 
们 在 高 维 结 点 如 何 表示 方面 可 以 聪明 些 ， 并 且 只 保留 非 空 指针 和 该 指针 表示 的 象限 的 标示 ， 这 
样 可 节省 相当 的 空间 。 

关于 我 们 在 14.3.4 节 讨论 的 kd 树 的 标准 操作 ， 我 们 这 里 不 再 进行 详细 的 讨论 : 四 叉 树 的 算 
法 类 似 于 kd 树 的 算法 。 
14.3.7 Re 

RAY (区 域 树 ) 是 一 种 利用 B 树 的 某 些 本 质 特 征 来 处 理 多 维 数据 的 数据 结构 。 回 想起 B 树 的 
结 点 有 一 个 键 的 集合 ， 这 些 键 把 线 分 成 片 眉 ， 沿 着 那 条 线 的 点 仅 属于 一 个 片段 ， 如 图 14-18 所 
示 。B 树 因此 使 我 们 很 容易 地 找到 点 。 如 果 把 沿线 


各 处 的 点 表示 成 B 树 结 点 ， 我 们 就 能 够 确定 点 所 属 H 


的 了结 上 后 ， 在 那里 可 以 找到 该 点 。 图 14-18 B 树 结 点 沿线 把 刍 分 成 不 相连 片段 

另 一 方面 ，R 树 表示 由 二 维 或 更 高 维 区 域 组 成 
的 数据 ， 我 们 把 它 称 为 数据 区 。- 个 R 树 的 内 结 点 
对 应 于 某 个 内 部 区 域 ， 或 称 “区 域 "， 它 不 是 普通 
的 数据 区 。 原 则 上 ， 区 域 可 以 是 任何 形状 ， 虽然 实 
际 中 它 经 常 为 矩形 或 其 他 简单 形状 。R 树 的 结 点 用 
子 区 域 替代 键 ， 子 区 域 表 示 结 点 的 子 结 点 的 内 容 。 
图 14-19 显 示 了 一 个 与 大 抢 形 相关 联 的 R 树 的 结 点 。 
虚线 表示 的 矩形 表示 与 它 的 四 个 子 结 点 相关 联 的 子 
区 域 。 注 意 ， 子 区 域 没 有 种 盖 整 个 区 域 ， 只 要 把 位 
于 大 区 域内 的 所 有 数据 区 都 完全 包含 在 某 个 小 区 域 。 ” 图 1419 R 树 结 点 区 域 和 子 结 点 子 区 域 
中 就 合乎 要 求 。 进 一 步 说 ， 子 区 域 允许 有 部 分 重大 ， 尽 管 使 部 分 重叠 更 小 是 所 希望 的 。 
14.3.8 ”RR 树 的 操作 

对 于 “where-am-I” 这 类 典型 查询 ，R 树 是 有 用 的 。 这 类 查询 指定 一 个 点 P 且 询问 该 点 所 处 
的 数据 区 域 。 

我 们 从 根 结 点 开始 ， 它 关联 着 整个 区 域 。 我 们 检查 根 上 的 子 区域 目 确定 根 结 点 的 哪个 子 结 
点 对 应 的 内 部 区 域 包 含 点 P。 注 意 到 可 能 有 0、1 或 几 个 这 样 的 区 域 。 

如 果 为 0 个 区 域 ， 那 我 们 就 结束 ，P 不 存在 任何 数据 区 中 。 如 果 至 少 有 -个 内 部 区 域 包含 点 
P， 那 么 我 们 必须 在 与 每 个 这 样 的 区 域 对 应 的 子 结 点 上 递归 查找 P。 当 查找 到 一 个 或 多 个 叶 结 ， 
点 时 ， 我 们 将 找到 真正 的 数据 区 ， 要 么 为 每 个 数据 区 找到 一 个 完整 的 记录 ， 要么 找到 一 个 指向 
该 记录 的 指针 。 

当 插入 一 个 新 区 域 R 到 R 树 时 ， 我 们 从 根 开始 且 设法 找到 一 个 适合 R 的 子 区 域 。 如 果 有 多 于 
一 个 这 样 的 区 域 ， 那 么 就 选择 一 个 ， 进 到 它 相 应 的 子 结 点 ， 且 在 那里 重复 这 个 过 程 。 如 果 不 存 
在 包含 R 的 子 区 域 ， 那 么 我 们 得 扩大 其 中 一 个 子 区 域 。 究 竞选 择 哪个 是 一个 艰难 的 决定 。 胡 
观 上 讲 ， 我 们 希望 扩大 的 区 域 尽 可 能 小 ， 因 此 我 们 可 以 看 一 下 哪 一 个 子 结 点 的 子 区 域 将 会 使 它 
们 的 面积 增加 得 尽 可 能 少 ， 改 变 该 区 域 的 边界 来 包含 R， 昌 在 它 的 相应 子 结 点 中 递归 地 插入 R。 

最 后 ， 我 们 到 达 叶 结 点 ， 在 那里 插入 区 域 R。 不 过 ， 如 果 在 该 叶 结 点 上 没有 空间 ， 那 么 我 
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们 必须 分 裂 叶 结 点 。 怎 样 分 裂 叶 结 点 受 某 些 选择 的 支配 。 通 常 我 们 希望 两 个 子 区 域 能 尽 可 能 
小 。 不 过 在 它们 之 间 ， 它 们 必须 覆盖 原始 叶 结 点 的 所 有 数据 区 。 完 成 分 裂 后 ， 我 们 用 对 应 于 
两 个 新 叶 结 点 的 区 域 和 指针 对 替换 原始 叶 结 点 的 区 域 和 指针 。 如 果 父 结 点 中 有 空间 ， 那 么 就 
结束 。 否 则 ， 就 像 在 B 树 中 一 样 ， 我 们 往 上 递 
归 地 分 裂 结 点 。 

例 14.18 让 我 们 考虑 追加 一 个 新 区 域 到 
图 14-1 所 示 的 地 图 中 。 假 设 叶 结 点 可 存放 6 个 
区 域 。 再 假设 图 14-1 中 的 6 个 区 域 一 起 在 一 个 
叶 结 点 上 ， 该 区 域 由 图 14-20 中 的 一 个 外 部 
( 实 ) 矩形 表示 。 

现在 ,假设 当地 的 电话 公司 在 图 14-20 所 示 
的 位 置 增加 一 个 POP ( 存在 点 ， 或 天 线 )。 由 于 
7 个 数据 区 域 不 能 存放 在 一 个 叶 结 点 上 ， 我 们 要 
分 裂 该 叶 结 点 ，4 个 在 一 个 叶 结 点 上 而 其 他 3 个 
在 男 一 个 叶 结 点 上 。 我 们 有 很 多 的 选择 。 我 们 
选择 了 图 14-20 中 的 划分 (用 内 部 的 、 虚 线 矩 形 图 14-20 分 裂 成 对 象 集 
表示 ): 它 使 重合 部 分 最 小 化 ， 同 时 又 尽 可 能 均 
匀 地 分 裂 叶 结 点 。 


100 







| 0,060.50 | | 20,20,(100.80) | || 








| house? | pipeline [ pop] 
图 14-21 R 树 


我 们 在 图 14-21 中 显示 了 两 个 新 叶 结 点 如 何 插入 到 R 树 中 。 两 个 结 点 的 父 结 点 有 指针 指向 它 
们 ,全 与 指针 相关 联 的 是 每 个 叶 结 点 所 覆盖 的 
和 矩形 区 域 的 左下 角 和 右上 角 坐 标 。 口 


例 14.19 ”假设 我 们 在 house2 的 下 方 插入 另 
一 个 house， 其 左下 角 坐 标 为 (70，5 )， HEA 
坐标 为 (80，15 )。 由 于 这 个 house 没 有 被 任何 
一 个 叶 结 点 的 区 域 完全 包含 ， 我 们 必须 选择 一 
个 区 域 来 扩大 。 如 果 扩 大 对 应 于 图 14-21 中 下 部 
的 子 区 域 ， 那 么 我 们 给 该 区 域 增加 了 1000 平 方 
单位 ， 因 为 往 右 延伸 了 20 个 单位 ， 如 果 把 另 一 
个 子 区 域 的 底 边 下 移 15 个 单位 来 扩大 该 子 区 
R, 那么 我 们 增加 了 1200 平 方 单位 。 我 们 最 好 
选择 第 一 个 ， 且 新 区 域 改 变 成 如 图 14-22 所 示 。 
我 们 还 必须 把 图 14-21 中 顶层 结 点 的 区 域 描述 从 图 14-22 扩大 一 个 区 域 来 容纳 新 数据 
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(C0, 0), (60, 50)) 改变 成 ((0, 0), (80, 50)). 口 
14.3.9 习题 


习题 14.3.1 给 图 14-10 的 数据 画 出 多 级 索引 ， 如 果 索 引 建立 在 ; 
a) 速度 ， 然 后 内 存 。 
b) 内 存 ， 然 后 硬盘 。 
c) 速度 ， 然 后 内 存 ， 最 后 硬盘 。 
习题 14.3.2 ”把 图 14-10 的 数据 放 到 一 个 kd 树 上 。 假 定 每 块 能 存放 两 个 记录 ， 给 每 一 层 挑 选 
一 个 使 数据 划分 尽 可 能 均匀 的 划分 值 。 分 裂 属性 的 顺序 选择 ; 
a) 速度 ， 然 后 内 存 ， 再 交替 。 
b) 速 度 ， 然 后 内 存 ， 最 后 硬盘 ， 再 交替 。 
c) 不 论 什 么 属性 ， 只 要 它 在 每 个 结 点 产生 最 均匀 的 分 裂 。 
习题 14.3.3 ”假设 我 们 有 一 个 关系 R(x，y，z )， 其 属性 x 和 y 一 起 形成 键 。 属 性 x 的 范围 是 
1~ 100,， 属 性 y 的 范围 是 1~1000。 对 于 每 一 个 *:， 有 100 个 y 值 不 同 的 记录 ; 对 于 每 个 y， 有 
10 个 x 值 不 同 的 记录 。 注 意 R 有 10 000 个 这 样 的 记录 。 我 们 希望 使 用 一 个 多 键 索引 来 帮助 回 
答 如 下 形式 的 查询 : 
SELECT z 
FROM R 
WHERE x = C AND y = D; 
其 中 C 和 D 为 常量 。 假 定 每 块 能 够 存放 10 个 键 -指针 对 ， 并 且 我 们 希望 在 每 一 级 创建 稠密 索 
引 。 可 能 在 它们 之 上 有 高 层 的 稀 琉 索引 ， 因 此 每 个 索引 从 单个 块 开 始 。 还 假定 最 初 所 有 的 
索引 和 数据 块 都 在 磁盘 上 : 
* a) 如 果 第 一 个 索引 是 建 在 x 上 ， 回 答 上 述 形 式 的 查询 需要 多 少 次 磁盘 1/O? 
b) 如 果 第 一 个 索引 是 建立 在 y 上 ， 回 答 上 述 形式 的 查询 需要 多 少 次 磁盘 1/O? 
! o) 假设 你 一 直 被 允许 有 11 个 内 存 缓冲 块 ， 如 果 你 想 使 额外 需要 的 磁盘 IO 数量 最 小 化 ， 
将 选择 哪些 块 ? 你 会 生成 x 或 y 的 第 一 个 索引 吗 ? 
习题 14.3.4 ”对 于 习题 14.3.3(a) 的 结构 ， 需 要 多 少 次 磁盘 WO 来 回答 20<x<35 目 200<y<350 
这 个 范围 查询 。 假 定数 据 分 布 均匀 ， 即 对 于 任何 给 定 的 范围 ， 预 计数 量 的 点 将 会 被 找到 。 
习题 14.3.5 在 图 14-13 的 树 中 ， 什 么 样 的 新 点 将 会 被 插入 到 ， 
* a) (30, 260) 所 在 的 块 。 
b) 点 (50, 100) 和 点 (50, 120) 所 在 的 块 。 
习题 14.3.6 ”如 果 我 们 相继 插入 点 (20，110 ) 和 (40，400 )， 画 出 图 14-15 的 树 可 能 的 “ 
习题 14.3.7 ”我 们 提 到 ， 如 果 kd 树 是 完全 平衡 的 ， 并 且 执 行 一 个 两 属性 中 给 定 其 中 任意 一 
个 值 的 部 分 匹配 查询 ， 我 们 就 结束 查找 需 访 问 * 个 叶 结 点 中 的 万 个 。 
a) 解释 为 什么 。 l 
b) 如 果树 在 d 维 中 交替 地 分 裂 ， 且 指定 这 些 维 中 的 m 个 值 ， 则 我 们 预计 要 查找 的 时 结 
点 所 占 比 例 是 多 少 ? 
c) 把 (b) 的 结果 和 分 段 散 列 表 进 行 对 比 ? 
习题 14.3.8 ”把 图 14-10 的 数据 存 和 一 个 有 速度 和 内 存 维 的 四 叉 树 中 。 假 定 速度 的 范围 是 
100 ~ 500， 而 内 存 的 范围 是 0 ~ 256。 
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习题 14.3.9 加 上 第 三 维 硬盘 ， 它 的 范围 是 0 ~ 32， 重 做 习题 14.3.8。 

习题 14.3.10 ”如果 允许 放 人 一 个 中 心 点 到 四 又 树 的 任意 象限 中 ， 我 们 总 是 能 划分 象限 为 等 
数目 点 的 子 象限 (或 者 尽 可 能 相等 ， 如 果 象 限 的 点 数 不 能 被 4 整除 ) 吗 ? 证 明 你 的 答案 。 
习题 14.3.11 ”假设 我 们 有 一 个 1 000 000 个 区 域 的 数据 库 ， 这 些 区 域 可 能 部 分 重 到 。R 树 的 
Fam (HR) 能 够 容纳 100 个 区 域 和 指针 。 任 何 结 点 表示 的 区 域 有 100 个 子 区 域 ， 且 这 些 区 域 
部 分 重 倒 情况 是 这 样 的 ，100 个 子 区 域 的 总 面积 是 该 区 域 面积 的 150%。 如 果 我 们 对 一 个 给 
定点 执行 “where-am-I” 查 询 ， 预 计 要 检索 多 少 个 块 ? 

习题 14.3.12 在 图 14-22 表 示 的 R 树 中 ， 一 个 新 区 域 可 能 进入 包含 学 校 的 子 区 域 或 者 包含 房 
子 3 的 子 区域 ， 描 述 我 们 更 愿意 把 它 放 和 人 包含 学 校 的 子 区 域 中 的 新 矩形 区 域 ( 即 选 择 子 区 
域 大 小 增加 最 少 的 子 区 域 )。 


14.4 位 图 索引 


现在 让 我 们 转 到 一 种 十 分 不 同 于 目前 所 见 索 引 的 索引 上 来 。 先 设想 文件 的 记录 有 一 个 永久 
的 号 : 1, 2, …, n。 此 外 ,文件 存在 某 种 数据 结构 ， 对 于 任意 的 一 个 i 它 可 使 我 们 容易 地 找到 第 i 
个 记录 。 

字段 F 的 一 个 位 图 索引 是 一 个 长 度 为 的 位 向 量 的 集合 。 每 一 个 位 向 量 对 应 于 字段 F 中 可 能 
出 现 的 值 。 如 果 第 i 个 记录 的 字段 F 的 值 为 x， 那 么 对 应 于 值 vy 的 位 向 量 在 位 置 :上 的 取 值 为 1; 否 
则 该 向 量 的 位 置 : 上 的 取 值 为 0。 

例 14.20 ”假设 文件 由 包括 两 个 字段 F 和 6G 的 记录 组 成 ， 字 段 分 别 为 整数 型 和 字符 串 型 。 当 
前 文件 有 六 个 记录 ， 编 号 为 1-6， 它 们 的 值 依次 如 下 : (30, foo) ,(30, bar),(40, baz),(50, 
£00),(40, bar),(30, baz), 

第 一 个 字段 F 的 位 图 索引 有 三 个 位 向 量 ， 每 个 长 度 为 6。 第 一 个 对 应 于 30， 是 110001， 因 为 
第 一 、 第 二 和 第 六 个 记录 都 是 F=30; 另外 两 个 分 别 对 应 于 40 和 50， 是 001010 和 000100。 

字段 G 的 位 图 索引 也 有 三 个 位 向 量 ， 因 为 那里 有 三 个 不 同 的 字符 串 出 现 。 三 个 向 量 是 ; 


值 向 量 
foo 100100 
bar 010010 
baz 001001 


在 每 种 情形 下 ，1 表 示 在 那个 记录 中 出 现 了 相应 的 字符 串 。 口 


14.4.1 位 图 索引 的 诱因 

最 初 可 能 会 出 现 位 图 索引 需要 太 多 太 多 的 空间 ， 尤 其 是 当 字段 有 许多 不 同 值 时 ， 因 为 位 的 
总 数 是 记录 和 字段 值 数 的 乘积 。 例 如 ， 如 果 字段 是 键 ， 且 记录 数 为 x+， 那么 该 字段 的 所 有 位 向 
量 需 使 用 ?个 二 进 制 位 。 不 过 ， 压 缩 能 够 做 到 使 位 的 数量 接近 于 n， 而 与 不 同 字段 值 的 数量 无 
关 ， 就 像 我 们 将 在 14.4.2 节 看 到 的 那样 。 

你 也 可 能 怀疑 位 图 索引 的 管理 会 出 现 问题 。 例如 , 它们 依赖 于 自始至终 保持 同样 的 记录 数 。 
随 着 文件 增加 和 删除 记录 ， 我 们 如 何 找 到 第 i 个 记录 ? 我 们 怎样 有 效 地 为 一 个 值 找到 位 图 ? 这 
些 和 其 他 相关 问题 在 14.4.4 节 讨论 。 

位 图 索引 的 补偿 优势 是 它们 允许 我 们 在 许多 情形 下 高 效 地 回答 部 分 匹配 查询 。 在 某 种 意义 
上 说 ， 它 们 提供 了 我 们 在 例 13.16 中 讨论 的 桶 的 优势 。 在 那里 ， 我 们 通过 指定 几 个 属性 值 找到 
Movie 元 组 ， 而 无 须 先 检索 在 每 一 个 属性 中 匹配 的 所 有 记录 。 下 面 的 一 个 例子 将 说 明 这 一 点 ， 
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$14.21 回想 例 13.16， 在 那里 ， 我 们 查询 Movie 关 系 


SELECT title 

FROM Movie 

WHERE studioName = ’Disney’ AND 
year = 1995; 


假设 在 属性 studioName 和 year 上 建 有 位 图 索引 ， 我们 就 能 够 相交 对 应 于 year=1995 和 
studioName='Disney' 的 两 个 位 向 量 ， 即 逐 位 求 这 些 位 向 量 的 与 ， 且 得 到 一 个 向 量 ， 该 向 量 
的 位 置 取 值 为 1 当 且 仅 当 第 :个 Movie 元 组 对 应 的 电影 是 由 Disney 于 1995 年 制作 的 。 

如 果 能 够 按 给 定 的 元 组 号 检索 Movie 元 组 ， 我 们 就 只 需要 读 包 含 一 个 或 多 个 这 样 的 元 组 的 
那些 块 ， 正 如 我 们 在 例 13.16 所 做 的 那样 。 为 了 相交 位 向 量 ， 我 们 必须 把 它们 读 进 内 存 ， 这 需 
要 给 这 两 个 位 向 量 之 一 所 占据 的 每 个 块 一 个 磁盘 IO 。 如 上 所 述 ， 我 们 稍 后 将 讲述 两 个 问题 : 
14.4.4 节 的 按 给 定 记录 号 访问 记录 和 14.4.2 节 的 证 实 位 向 量 并 不 占 太 多 的 空间 。 口 


位 图 索引 也 能 够 帮助 回答 范围 查询 。 下 面 我 们 将 考虑 一 个 例子 : 它 不 仅 阐述 了 它们 在 范围 
查询 中 的 使 用 ， 而 且 用 一 些 短 的 位 向 量 详细 地 显示 了 位 向 量 的 逐 位 与 逐 位 或 如 何 能 够 被 用 来 找 
到 查询 的 答案 ， 它 只 查找 我 们 所 要 的 记录 而 不 会 查找 任何 其 他 记录 。 

14.22 先 考 虑 例 14.7 的 金 首饰 数据 。 假 定 例子 中 的 12 个 点 是 如 下 编号 从 1 到 12 的 记录 : 

1: (25, 60) 2:(45, 60) 3;(50, 75) 4; (50, 100) 
5: (50, 120) 6: (70, 110) 7; (85, 140) 8: (30, 260) 
9: (25, 400) 10: (45, 350) 11: (50, 275) 12: (60, 260) 

对 第 一 个 分 量 年 龄 ， 它 有 7 个 不 同 值 ， 因 此 年 龄 的 位 图 索引 由 下 面 7 个 向 量 组 成 : 

25: 100000001000 30: 000000010000 45: 010000000100 


50: 001110000010 60: 000000000001 70: 000001000000 
85: 000000100000 

对 于 薪水 分 量 ， 它 有 10 个 不 同 值 ， 因 而 薪水 的 位 图 索引 有 下 面 的 10 个 向 量 : 
60: 110000000000 75: 001000000000 100: 000100000000 
110: 000001000000 120: 000010000000 140: 000000100000 
260: 000000010001 275: 000000000010 350: 000000000100 
400: 000000001000 


假定 我 们 要 找 出 年 龄 范围 在 45~55 且 薪水 范围 在 100 ~ 200 的 所 有 首饰 购买 者 。 先 找 出 在 这 
个 范围 内 的 年 龄 值 向 量 ; 在 这 个 例子 中 它们 是 010000000100 和 001110000010， 分 别 对 应 于 年 龄 
45 和 50。 如 果 取 它们 的 逐 位 或 ， 我 们 就 得 到 一 个 新 向 量 : 当 且 仅 当 第 ;个 记录 的 年 龄 在 给 定 范 
围 内 时 它 的 位 置 ? 上 取 值 为 1， 且 该 向 量 为 011110000110。 

下 一 步 , 我 们 找 出 范围 在 100K~200K 之 间 的 薪水 值 向 量 ; 它们 有 4 个 ， 分 别 对 应 于 薪水 100、 
110、120 和 140， 它 们 的 逐 位 或 结果 是 000111100000。 

最 后 一 步 是 取 通过 “或 ”运算 得 到 的 两 个 位 向 量 的 逐 位 与 ， 即 ; 

011110000110 AND 000111100000=000110000000 
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于 是 我 们 找到 只 有 第 四 和 第 五 个 记录 (50, 100) 和 (50, 120) 是 在 所 需 范围 内 。 口 
14.4.2 压缩 位 图 

假定 我 们 在 一 个 有 n 个 记录 的 文件 的 字段 F 上 建 有 位 图 索引 ， 旦 在 文件 中 出 现 的 字段 F 的 不 
同 值 是 m。 那 么 该 索引 的 所 有 位 向 量 的 二 进 制 位 数 就 是 mx。 如果 块 的 大 小 为 4096 个 字 节 ， 那 么 
在 一 个 块 中 我 们 可 存放 32 768 位 ， 因 此 所 需 块 数 是 mn/32 768。 这 个 数 比 存放 文件 本 身 所 需 的 块 
数 要 小 ， 但 是 随 着 六 的 变 大 ， 位 图 索引 所 需 空间 也 就 越 多 。 

但 是 ， 如 果 m 很 大 ， 那 么 位 向 量 中 的 1 将 会 很 少 。 精 确 地 说 ， 任 何 一 位 出 现 1 的 概率 为 1/m。 







二 进 制 数 不 能 用 作 分 段 长 度 编码 

假设 我 们 用 整数 的 二 进 制 数 来 表示 一 个 i 个 0 后 跟 一 个 1 的 段 。 位 向 量 000101 分 别 由 
长 度 为 3 和 1 的 两 个 段 组 成 。 这 两 个 整数 的 二 进 制 表示 为 11 和 1， 这 样 000101 的 分 段 长 度 纺 
码 是 111。 可 是 ， 类 似 的 计算 表明 位 向 量 010001 也 被 编码 成 111; 而 位 向 量 010101 是 编码 
为 111 的 第 三 个 向 量 。 因 此 ，111 不 能 够 被 惟一 地 解码 成 一 个 位 向 量 。 


如 果 1 很 少 ， 那 么 我 们 就 有 机 会 编码 位 向 量 以 便 它 们 平均 所 占用 的 位 比 z 少 很 多 。 一 个 常用 的 方 
法 叫做 分 段 长 度 编码 ， 通 过 对 整数 ;进行 适当 的 二 进 制 编码 ， 得 到 一 个 由 i 个 0 且 后 跟 一 个 1 所 组 
成 的 序列 ， 这 个 序列 表示 一 个 段 。 我 们 把 每 个 段 的 代码 拼接 在 一 起 ， 则 这 个 位 序列 就 是 整个 位 
向 量 的 编码 。 

我 们 可 能 会 想到 可 以 就 把 读 达 成 二 进 制 数 来 表示 整数 j。 不过， 如 此 简单 的 方法 是 不 行 的 ， 
因为 把 编码 序列 分 成 多 个 部 分 后 要 惟一 地 确定 各 个 段 的 长 度 是 不 可 能 的 ( 请 看 “二 进 制 数 不 能 
用 作 分 段 长 度 编码 ” 框 )。 因 此 ， 表 示 自 长度 的 整数 的 编码 一 定 比 简单 的 二 进 制 表 示 更 复杂 。 

我 们 应 当 使 用 多 种 可 选 方法 中 的 一 种 来 编码 。 它 们 中 有 一 些 更 好 、 更 复杂 的 方法 能 够 按 2 
的 倍数 来 提高 压缩 的 量 。 但 只 有 当 一 般 的 段 很 长 时 才 行 。 在 我 们 的 方法 中 ， 首 先 需要 确定 i 的 
二 进 制 表示 是 多 少 位 ， 数 字 j 近似 于 log zi， 被 表示 成 “一 元 ”: j - 1 个 1 和 单个 0。 然 后 ,我 们 
在 它 后面 加 上 i 的 二 进 制 数 8。 


例 14.23 如果 i = 13， 那么 j= 4。 即 我 们 需要 4 位 二 进 制 来 表示 i。 因 此 ，i 的 编码 开始 部 
分 为 1110。 我 们 把 i 的 二 进 制 数 1101 加 上 ， 这 样 ，13 的 编码 就 是 11101101。 

i = 1 的 编码 是 01， 而 i = 0 的 编码 是 00。 在 每 一 种 情况 下 ，j < 1， 因 此 我 们 以 一 个 0 开始 且 0 
后 面 为 表示 i 的 一 位 二 进 制 数 。 口 


如 果 我 们 拼接 了 一 个 整数 的 编码 序列 ， 总 能 够 恢复 段 的 长 度 序列 ， 且 据 此 可 以 恢复 原始 位 
向 量 。 假 设 已 经 扫描 了 一 些 编码 位 ， 且 我 们 正 处 在 某 个 整数 i 的 编码 位 序列 的 开始 位 置 上 。 我 
们 向 前 扫 措 到 第 一 个 0 并 确定 j 的 值 。 即 ，j 等 于 我 们 找到 第 一 个 0 所 扫描 过 的 位 数 ( 在 计算 位 时 
包括 0 本 身 )。 一 旦 我 们 知道 j， 就 查找 后 j 位 ， 该 j 位 用 二 进 制 表示 的 数 就 是 i。 此 外 ， 一 旦 扫 
描 过 表示 的 二 进 制 位 ， 我 们 便 知道 下 一 个 整数 编码 的 开始 位 置 。 所 以 我 们 可 以 重复 这 个 过 程 。 

例 14.24 ”让 我 们 来 对 序列 11101101001011 进 行 解码 。 从 第 一 位 开始 ， 我 们 在 第 四 位 上 找 
到 第 一 个 0， 因 而 j = 4， 下 面 四 位 为 1101， 因 而 我 们 确定 第 一 个 整数 是 13。 现 在 我 们 剩 下 
001011 要 解码 。 . 

由 于 第 一 位 是 0， 我 们 知道 下 一 位 表示 整数 本 身 ， 该 整数 为 0。 因 此 已 经 解码 的 序列 为 13 和 







O 实际 上 , 除了 j=1( 即 i=0 或 i=1) 的 情况 ， 我 们 能 够 肯定 i 的 二 进 制 表示 都 以 开头。 这 样 ， 如 果 省 去 这 个 1， 
使 用 剩 下 的 了 - 1 位 ,我 们 能 够 为 每 个 数字 节省 一 位 。 
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0， 我 们 必须 解码 镜 下 的 序列 1011。 

我 们 在 第 二 个 位 置 上 找到 第 一 个 9， 于 是 下 结论 ， 最 末 两 位 表示 最 后 的 整数 3。 我 们 的 整个 
分 段 长 度 序列 是 这 样 : 13, 0, 3。 从 这 些 数字 中 ， 我 们 能 够 重新 构造 实际 的 位 向 量 : 000000000 
0000110001。 口 


从 技术 上 讲 ， 每 个 这 样 解码 的 位 向 量 都 以 1 结尾 ， 县 任何 的 尾数 0 串 都 不 会 被 恢复 。 由 于 我 
们 可 能 知道 文件 中 记录 的 数目 ， 因 此 附加 的 0 串 能 够 被 加 上 。 不 过 ， 既 然 在 位 向 量 中 0 表示 相应 
的 记录 不 在 所 摘 述 的 集中 ， 我 们 甚至 不 必 知 道 记 录 的 总 数 ， 并 且 可 以 忽略 这 个 尾数 0 串 。 

例 14.25 ”让 我 们 把 例 14.23 中 的 某 些 位 向 量 转换 成 分 段 长 度 码 。 前 三 个 年 龄 25、30 和 45 的 
位 向 量 分 别 为 100000001000、000000010000 和 010000000100。 第 一 个 位 向 量 的 分 段 长 度 序列 
为 (0，7)。0 的 编码 是 00，7 的 编码 是 110111。 这 样 ， 年 龄 25 的 位 向 量变 成 了 00110111 。 

类 似 地 ， 年 龄 30 的 位 向 量 只 有 一 个 7 个 0 的 段 。 因 此 ， 它 的 代码 是 110111。 年 龄 45 的 位 向 量 
有 两 个 段 (1，7 )， 由 于 1 的 编码 是 01， 且 我 们 确定 的 7 的 编码 是 110111， 则 第 三 个 位 向 量 的 编 - 
码 是 01110111。 口 


例 14.25 中 的 压缩 并 不 大 。 不 过 ， 当 记录 数 n 很 小 时 ， 我 们 看 不 到 真正 的 好 处 。 为 了 认识 这 
种 编码 的 价值 ， 假 定 m=n， 即 建 有 位 图 索引 的 属性 的 值 是 惟一 的 。 注 意 到 长 度 为 的 段 大 约 有 
2logzi 位 。 如 果 每 个 位 向 量 只 有 一 个 1， 那 么 它 是 一 个 单一 段 ， 且 那个 段 的 长 度 不 可 能 比 x 长 。 
这 样 ， 在 这 种 情况 下 ， 位 向 量 编码 的 上 限 长 度 为 210gzn 位 。 

由 于 在 索引 中 有 n 个 位 向 量 ( 因为 m = n )， 则 表示 这 个 索引 的 位 总 数 最 多 为 2nlogzn。 注 意 ， 
没有 编码 时 需要 nf AE n > 4， 我们 就 有 2nlogzn <, ARES n 的 增 大 ， 2nlogzn 变 得 越 来 
越 小 于 n?。 | 
14.4.3 游程 长 度 编码 位 向 量 的 操作 

当 我 们 需要 在 编码 位 向 量 上 执行 逐 位 与 或 逐 位 或 操作 时 ， 除 了 解码 它们 并 在 原始 的 位 向 量 
上 操作 外 ， 没 有 别 的 选择 。 不 过 ， 我 们 不 必 同 时 全 部 解码 。 我 们 描述 的 压缩 方法 可 以 一 次 解码 
一 个 游程 ， 且 能 因此 确定 操作 数位 向 量 的 下 一 个 1 在 什么 位 置 。 如 果 进 行 或 操作 ， 就 在 输出 的 
相应 位 置 生成 1; 而 如 果 进 行 与 操作 ， 当 上 且 仅 当 两 个 操作 对 象 在 相同 的 位 置 有 下 一 个 1 时 ， 我 们 
才能 生成 1。 涉 及 的 算法 很 复杂 ， 但 下 面 的 例子 可 能 使 这 个 思想 清晰 明了 。 

例 14.26 考虑 我 们 在 例 14.25 中 得 到 的 年 龄 为 5 和 30 的 编码 位 向 量 : 00110111 和 110111。 
我 们 能 够 容易 地 解码 它们 的 第 一 个 游程 : 我 们 找 出 它们 分 别 为 0 和 7。 也 就 是 25 的 位 向 量 的 第 1 
个 出 现在 位 置 1， 而 30 的 位 向 量 的 第 一 个 1 出 现在 位 置 8。 因 此 我 们 在 位 置 1 生 成 1。 

下 一 步 ， 我 们 必须 解码 年 龄 25 的 位 向 量 的 下 一 个 游程 ， 因 为 该 向 量 可 能 在 年 龄 30 的 位 向 量 
在 位 置 8 上 生成 1 之 前 生成 另外 一 个 1。 年 龄 25 的 位 向 量 的 下 一 个 段 是 7， 说 明 该 位 向 量 生成 下 一 
个 1 的 位 置 为 9。 因 此 我 们 可 生成 一 个 6 个 0 的 串 和 一 个 位 置 8 上 的 1, 它 是 来 自 于 年 龄 30 的 位 向 量 。 
位 置 9 上 生成 一 个 1， 它 是 来 自 于 年 龄 25 的 位 向 量 。 该 向 量 也 不 会 生成 后 续 的 1 串 。 

我 们 得 出 结论 ， 这 两 个 位 向 量 的 或 是 100000011。 对 照 12 位 的 原始 位 向 量 : 我 们 看 到 这 几 
平 是 正确 的 ， 除 了 尾部 的 三 个 0 被 省 去 外 。 如 果 我 们 知道 文件 中 的 记录 数 是 12， 就 能 够 扎 加 这 
些 0。 不 过 ， 我 们 追 不 追加 都 不 重要 ， 因 为 只 有 1 才 会 导致 记录 被 检索 。 在 这 个 例子 中 ， 我 们 不 
论 怎样 也 不 会 去 检索 10 ~ 12 之 间 的 任何 一 个 记录 。 口 


14.4.4 位 图 索引 的 管理 
我 们 已 经 描述 了 位 图 索引 上 的 操作 ， 但 没有 谈 到 三 个 重要 问题 ; 
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1. 当 我 们 想 查 找 一 个 给 定 值 的 位 向 量 , 或 者 给 定 范围 内 的 值 对 应 的 多 个 位 向 量 时 ， 我 们 如 
何 有 效 地 找到 它们 ? 

2. 当 我 们 已 经 选择 好 回答 查询 的 记录 集 时 ， 如 何 有 效 地 检索 这 些 记录 ? 

3. 当 数 据 文 件 由 于 记录 的 插 人 或 删除 而 发 生 改变 时 ， 我 们 如 何 调整 给 定 字段 上 的 位 图 
索引 ? 
查找 位 向 量 

第 一 个 问题 可 以 基于 我 们 已 经 学 过 的 技术 来 回答 。 把 位 向 量 看 成 记录 ， 它 们 的 键 是 对 应 于 
该 位 向 量 的 字段 值 (虽然 值 本 身 不 在 “记录 ”中 出 现 )。 任 何 辅助 索引 技术 都 可 以 使 我 们 有 效 
地 按 值 找到 它们 的 位 向 量 。 例 如 ， 我 们 能 够 使 用 B 树 ， 它 的 叶 结 点 包含 键 -指针 对 ， 指 针 指 向 
该 键 值 的 位 向 量 。B 树 通常 是 较 好 的 选择 ， 因 为 它 很 容易 地 支持 范围 查询 。 不 过 散 列 表 和 索引 
顺序 文件 是 另外 的 可 选 对 象 。 

我 们 也 需要 在 某 处 存储 位 向 量 。 最 好 是 把 它们 看 做 可 变 长 记录 ， 因 为 随 着 数据 文件 中 记录 
的 增加 ， 它 们 一 般 会 增长 。 如 果 位 向 量 或 许 处 于 压缩 的 形式 ， 它 一 般 会 比 块 更 短 ， 这 时 可 考虑 
把 几 个 位 向 量 存 人 一 个 块 且 按 需要 移动 它们 。 如 果 位 向 量 比 块 更 长 ， 应 该 考虑 使 用 块 的 链表 来 
存放 每 个 这 样 的 位 向 量 。 在 这 时 ，12.4 节 的 技术 很 有 用 。 
查找 记录 

现在 ， 让 我 们 来 考虑 第 二 个 问题 : 一 旦 确定 了 我 们 所 需要 的 数据 文件 中 的 记录 上 ， 如 何 找 
到 它 。 同 样 ， 可 以 采用 我 们 已 经 学 过 的 技术 。 把 第 k 个 记录 看 做 索引 键 值 为 上 ( 虽然 该 键 实际 上 
并 不 在 记录 中 出 现 )。 然 后 我 们 可 在 数据 文件 上 创建 辅助 索引 ， 它 的 索引 键 是 记录 号 。 

如 果 找 不 到 用 其 他 方式 来 组 织 文件 的 理由 ， 我 们 甚至 可 以 用 记录 号 作为 主 索引 的 索引 键 ， 
就 像 在 13.1 节 讨论 的 那样 。 那 么 ， 数 据 文件 的 组 织 就 特别 简单 ， 因 为 记录 号 从 不 改变 ( 即使 记 
录 被 删除 也 一 样 )， 并 且 我 们 只 需 追 加 新 记录 到 数据 文件 的 后 面 。 因 此 ， 我 们 可 以 把 数据 文件 
的 抉 完全 装 满 ， 而 不 用 为 插入 到 文件 中 间 的 记录 留 出 额外 的 空间 一 一 像 我 们 在 13.1.6 节 的 索引 
序列 文件 的 一 般 情况 所 必需 的 那样 。 
数据 文件 修改 的 处 理 

在 位 图 索引 中 ， 有 两 个 方面 来 反映 数据 文件 修改 的 问题 : 

1. 一 旦 分 配 后 ， 记 录 数 必须 保持 一 定 。 

2. 数据 文件 的 改变 需要 位 图 索引 也 作 相 应 改变 。 

第 1 项 的 结果 是 当 我 们 删除 记录 i 时 ,，“ 隐 去 ”其 记录 号 是 最 容易 的 。 它 在 数据 文件 中 的 空 
间 用 “删除 标记 ”代替 。 位 图 索引 也 必须 改变 ， 因 为 在 位 置 i 上 为 1 的 位 向 量 必须 把 这 个 1 改 成 0。 
注意 ， 因 为 在 删除 之 前 ,我 们 知道 记录 i 的 值 ， 所 以 我 们 能 够 找到 适当 的 位 向 量 。 

接 下 来 考虑 新 记录 的 插入 。 我 们 保留 了 下 一 个 可 用 记录 号 , 并 且 把 它 分 派 给 新 记录 。 然后， 
对 于 每 个 位 图 索引 ， 我 们 必须 确定 新 记录 在 相应 字段 的 值 ， 并 在 该 值 的 位 向 量 后 面 妃 加 1。 从 
技术 上 讲 ， 在 这 个 索引 的 其 他 位 向 量 的 末端 都 加 上 一 个 新 0， 但 是 ， 如 果 我 们 使 用 了 父 14.4.2 节 
的 压缩 技术 ， 则 对 于 压缩 值 就 不 需要 作 任何 改变 。 

作为 一 种 特殊 的 情况 ， 新 记录 有 一 个 索引 字段 以 前 没有 出 现 过 的 值 。 在 这 种 情况 下 ， 我 们 
需要 给 这 个 值 一 个 新 的 位 向 量 ， 且 这 个 位 向 量 和 它 的 相应 值 需要 被 插入 到 辅助 索引 结构 中 ， 该 
结构 被 用 来 按 给 定 值 查找 它 的 相应 的 位 向 量 。 

最 后 ， 让 我 们 来 考虑 对 数据 文件 中 记录 i 的 修改 ， 即 把 一 个 有 位 图 索引 的 字段 的 值 从 值 v 改 
为 值 w。 我 们 必须 找到 v 的 位 向 量 并 把 位 置 :上 的 1 改 为 0。 如 果 存 在 一 个 值 w 的 位 向 量 ， 那 么 我 们 
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把 它 的 位 置 ! 上 的 0 改 为 1; 如 果 仍 不 存在 值 w 的 位 向 量 ， 那 么 我 们 就 像 前 一 段 讨论 这 种 情况 的 那 
样 创建 一 个 位 向 量 。 
1445 习题 
习题 14.4.1 ”针对 下 列 属性 ,分 别 用 非 压缩 方式 和 14.4.2 节 介绍 的 压缩 方式 给 图 14-10 中 的 
数据 画 出 位 图 索引 : 
* a) 速度 
b) AFF 
c) 硬盘 
习题 14.4.2 ”利用 例 14.22 中 的 位 图 ， 找 出 年 龄 范围 为 20 ~ 40 且 薪水 为 0 ~ 100 范 围 的 首饰 
买主 。 
习题 14.4.3 考虑 一 个 有 1 000 000 个 记录 的 文件 ， 且 字段 F 有 m 个 不 同 值 : 
a) 作为 m 的 一 个 函数 ，F 的 位 图 索引 有 和 多少 个 字 节 ? 
! b) 假定 编号 从 1 到 1 000 000 的 记录 的 字段 F 的 值 按 循 环 方式 给 出 。 因 此 ， 每 个 值 每 隔 m 
个 记录 出 现 一 次 。 使 用 压缩 索引 需要 多 少 个 字 节 ? 
习题 14.4.4 ”我 们 在 14.4.2 节 中 建议 : 把 编码 数 ; 占 用 的 位 数 从 我 们 在 那 一 节 里 使 用 的 21ogzi 
减少 到 接近 log2i 是 可 能 的 。 当 i 很 大 时 ， 指 出 如 何 尽 可 能 地 接近 该 极限 。 提 示 : 使 用 一 元 编 
码 一 一 用 来 对 i 的 二 进 制 编码 的 长 度 进行 编码 的 方法 。 你 能 用 二 进 制 对 码 的 长 度 编 码 吗 ? 
习题 14.4.5 使 用 14.4.2 节 的 方法 ， 编 码 下 列 位 图 : 
* a) 0110000000100000100 
b) 10000010000001001101 
c) 0001000000000010000010000 
*! 习题 14.4.6 ”我 们 指出 : 对 于 n 个 记录 的 文件 ， 压 缩 位 图 索引 要 耗费 大 约 2nlogzn 位 。 这 个 
位 数 与 B 树 索引 耗费 的 位 数 相 比 如 何 ? 记 住 ，B 树 索引 的 大 小 依赖 于 键 和 指针 的 大 小 ， 以 
及 (小 部 分 ) 块 的 大 小 。 不过， 在 你 的 计算 中 ， 可 对 这 些 参 数 做 些 合理 估计 。 为 什么 我 们 
可 能 更 愿意 选择 B 树 ， 即 使 它 比 压缩 位 图 占用 更 多 的 空间 ? 


14.5 小 结 


— 


“多 维 数据 ; 许多 应 用 ,诸如 地 理 数 据 库 或 销售 和 仓库 数据 ， 可 以 被 认为 是 在 二 维 或 多 维 
空间 中 的 点 。 

“需要 多 维 索 引 的 查询 : 在 多 维 数据 上 需要 被 支持 的 查询 种 类 包括 ; 部 分 匹配 (在 维 的 子 
集 上 指定 值 的 点 集 )、 范 围 查询 (在 每 一 维 的 范围 内 的 点 集 )、 最 邻近 查询 (BAZAR 
近 的 点 ) 和 where-am-I (包含 一 个 给 定点 的 区 域 或 区 域 集 )。 

。 最 邻近 查询 的 执行 : 许多 数据 结构 允许 通过 执行 一 个 围绕 给 定点 的 范围 查询 来 执行 最 邻 
近 查 询 。 要 是 在 该 范围 内 不 存在 点 ， 则 扩大 这 个 范围 。 因 为 在 矩形 范围 内 找到 了 点 并 不 
排除 在 矩形 外 有 更 近 点 的 可 能 性 ， 所 以 我 们 必须 小 心 才 是 。 

“网 格 文件 : 网 格 文件 在 每 一 维 上 切 分 点 空间 。 网 格 线 间 的 距离 可 以 不 同 ， 且 每 一 维 上 的 
网 格 线 数目 也 可 以 不 同 。 只 要 数据 分 布 得 相当 均匀 ， 网 格 文件 就 能 很 好 地 支持 范围 查询 、 
部 分 匹配 查询 和 最 邻近 查询 。 

“分 段 散 列表 : 分 段 散 列 函数 从 每 一 维 上 构造 桶 号 的 一 些 二 进 制 位 。 它 们 较 好 地 支持 部 分 
匹配 查询 ， 且 不 依赖 于 数据 的 均匀 分 布 。 
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“多 键 索引 : 一 个 简单 的 多 维 结构 有 一 个 根 ， 根 是 某 个 属性 的 索引 ， 它 导 人 第 二 个 属性 上 
的 索引 集合 ， 而 第 二 个 属性 的 索引 又 导入 第 三 个 属性 的 索引 集合 ， 等 等 。 它 们 对 于 范围 
查询 和 最 邻近 查询 有 用 。 

“kd 树 : 这 些 树 像 二 又 搜索 树 ， 但 它们 按 不 同 层次 在 不 同属 性 上 分 枝 。 它 们 较 好 地 支持 部 
分 匹配 查询 、 范 围 查询 和 最 邻近 查询 。 为 了 使 该 结构 适合 二 维 辅 存 操作 ， 需 要 把 多 个 树 
结 点 压缩 到 一 个 块 。 

“四 又 树 : 四 又 树 划 分 多 维 立方 体 成 四 个 象限 ， 且 若 它们 有 太 多 的 点 ， 则 递归 地 用 同样 的 
方式 划分 这 些 象限 。 它 们 支持 部 分 匹配 查询 、 范 围 查询 和 最 邻近 查询 。 

“Re: 这 种 树 的 结构 通常 表示 成 区 域 的 集合 ， 且 通过 聚集 它们 成 一 个 更 大 区 域 的 层次 结 
构 。 它 对 于 where-am-I 查 询 有 帮助 。 如 果 原 子 区 域 实际 上 是 点 ， 它 将 同样 支持 在 本 章 中 
研究 的 其 他 类 型 的 查询 。 

“位 图 索引 : 这 种 索引 结构 支持 多 维 查询 。 它 排序 点 或 记录 ， 并 且 通 过 位 向 量 表示 记录 的 
位 置 。 这 些 索引 支持 范围 查询 、 最 邻近 查询 和 部 分 匹配 查询 。 

“压缩 位 图 : 为 了 节省 由 很 少 个 1 的 向 量 组 成 的 位 图 索引 的 空间 ， 通 过 采用 游程 长 度 编码 来 
对 位 图 索引 进行 压缩 。 
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第 15 章 查询 执行 


前 面 几 章 给 我 们 提供 了 一 些 数据 结构 ， 它 们 有 助 于 支持 基本 的 数据 库 操作 ， 如 根据 查询 关 
键 字 查找 元 组 。 我 们 现在 可 以 利用 这 些 结构 来 支持 响应 查询 查询 


的 有 效 算法 。 查 询 处 理 将 在 本 章 与 第 16 章 中 讨论 。 查 询 处 理 
器 是 DBMS 中 的 一 个 部 件 集合 ， 它 能 够 将 用 户 的 查询 和 数据 
查询 编译 
(第 16 章 ) 
查询 计划 





修改 命令 转变 为 数据 库 上 的 操作 序列 ， 并 且 执行 这 些 操作 。 
既然 SQL 人 允许 我 们 在 很 高 的 层次 上 表达 查询 ， 那 么 查询 处 理 
器 必须 提供 关于 查询 将 被 如 何 执行 的 大 量 细节 。 此 外 ， 查 询 
的 一 个 幼稚 的 执行 策略 可 能 导致 采用 的 查询 执行 算法 所 用 时 
间 比 必需 的 高 出 许多 倍 。 
图 15-1 表 明了 第 15 章 与 第 16 章 的 主题 的 划分 。 在 本 章 中 ， 
我 们 将 集中 在 查询 执行 上 ， 也 就 是 操作 数据 库 数据 的 算法 。 
我 们 将 集中 讨论 5.4 节 所 述 的 扩展 关系 代数 的 操作 ， 由 于 SQL g 
使 用 包 模 型 ， 因 此 我 们 也 假设 关系 都 是 包 ， 从 而 可 使 用 5.3 
节 中 的 关于 包 的 操作 符 。 

本 章 列 出 了 执行 关系 代数 运算 的 基本 方法 。 这 些 方法 的 
基本 策略 有 所 不 同 ,扫描 、 散 列 、 排 序 和 索引 是 主要 的 方式 。 | 
这 些 方法 对 可 得 到 的 主 存 容 量 上 所 做 的 假设 也 有 所 不 同 ， 有 ESI 查询 处 理 器 的 主要 部 分 
些 算法 假设 可 得 到 的 主 存 至 少 能 够 容纳 参加 操作 的 一 个 关系 。 另 一 些 算法 假设 操作 对 象 太 大 以 
至 于 不 能 装 在 主 存 中 ， 这 些 算法 在 代价 和 结构 上 有 明显 的 差别 。 
查询 编译 预览 

正如 图 15-2 所 描绘 的 ， 查 询 编译 可 以 分 为 三 个 主要 步 又 ， 

a) 分 析 ， 在 这 个 过 程 中 构造 分 析 树 ， 用 来 表达 查询 和 它 的 结构 。 

b) 查询 重 写 ， 在 这 个 过 程 中 分 析 树 被 转化 为 初始 查询 计划 ， 这 种 查询 计划 通常 是 查询 的 代 
数 表达 式 。 然 后 ， 初 始 查询 计划 被 转化 为 一 个 预期 所 需 执行 时 间 较 小 的 等 价 的 计划 。 

c) 物理 计划 生成 ， 在 这 一 步 ， 通 过 为 (b) 中 抽象 的 查询 计划 ， 即 通常 所 谓 的 逻辑 查询 计划 
的 每 一 个 操作 符 选择 实现 算法 ， 并 选择 这 些 操作 符 的 执行 顺序 ， 逻 辑 计划 被 转化 为 物理 查询 计 
划 。 与 分 析 结 果 和 逻辑 计划 -- 样 ， 物 理 计划 用 表达 式 树 来 表示 。 物 理 计划 还 包含 许多 细节 ， 如 
被 查询 的 关系 是 怎样 被 访问 的 ， 以 及 一 个 关系 何 时 或 是 否 应 当 被 排序 。 

(b) 和 (c) 部 分 常 被 称 做 查询 优化 器 ， 它 们 是 查询 编译 的 难点 。 第 16 章 专门 讨论 查询 优化 ， 
我 们 将 在 那里 学 习 怎样 选择 一 个 占用 时 间 尽 可 能 少 的 “查询 计划 ”。 为 了 选择 最 好 的 查询 计划 ， 
我 们 需要 判断 : 

L 查询 的 哪 一 个 代数 等 价 形式 会 为 回答 查询 带 来 最 有 效 的 算法 ? 

2. 对 选中 形式 的 每 一 个 操作 ， 我 们 应 当 使 用 什么 算法 来 实现 ? 

3. 数据 如 何 从 一 个 操作 传 到 另 一 个 操作 ， 比 如 使 用 流水 线 方 式 、 主 存 缓冲 区 还 是 通过 磁 
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714 这 些 选 择 中 的 每 一 个 都 依赖 于 关于 数据 库 的 元 数据 。 查询 优化 可 利用 的 典型 的 元 数据 包括 : 
每 个 关系 的 大 小 ; 统计 数据 ， 如 一 个 属性 的 不 同 值 的 近似 数目 和 频率 ; 某 些 索 引 的 存在 以 及 数 
据 在 磁盘 上 的 分 布 。 
SQL 查询 


查询 表达 式 树 


选择 逻辑 
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图 15-2 查询 编译 概貌 


15.1 物理 查询 计划 操作 符 介绍 


物理 查询 计划 由 操作 符 构造 ， 每 一 个 操作 符 实现 计划 中 的 一 步 。 物 理 操作 符 常常 是 一 个 关 
系 代数 操作 符 的 特定 的 实现 。 但 是 ， 我 们 也 需要 用 物理 操作 符 来 完成 另 一 些 与 关系 代数 操作 符 
无 关 的 任务 。 例 如 ， 我 们 经 常 需要 “扫描 ”一 个 表 ， 即 将 作为 关系 代数 表达 式 的 操作 数 的 某 个 
关系 的 每 个 元 组 调和 内 存 。 本 节 中 我 们 将 介绍 物理 查询 计划 的 基本 构造 块 ， 后面 的 章节 中 包括 
有 效 地 实现 关系 代数 操作 符 的 更 复杂 的 算法 ， 这 些 算法 也 是 物理 查询 计划 的 一 个 必 不 可 少 的 部 
分 。 我 们 还 在 这 里 介绍 “迭代 器 ”的 概念 ， 它 是 使 包含 在 一 个 物理 查询 计划 中 的 操作 符 之 间 能 

715) 够 传递 对 元 组 的 请 求 以 及 结果 的 一 个 重要 方法 。 

15.1.1 扫描 表 

可 能 我 们 在 一 个 物理 查询 计划 中 可 以 做 的 最 基本 的 事情 是 读 一 个 关系 R 的 整个 内 容 。 有 时 候 ， 
例如 将 R 与 男 一 个 关系 做 并 或 连接 时 ， 这 一 步 是 必须 的 。 这 个 操作 符 的 一 个 变 体 包含 一 个 简单 的 
谓词 ， 我 们 仅 读 出 关系 R 中 那些 满足 这 个 谓词 的 元 组 。 定 位 关系 R 中 的 元 组 的 基本 方法 有 两 种 。 

1. 在 很 多 情况 下 ， 关 系 R 存 放 在 第 二 级 存储 器 的 某 个 区 域 中 ， 它 的 元 组 排放 在 块 中 。 系 统 
知道 包含 R 的 元 组 的 块 ， 并 且 可 以 一 个 接 一 个 地 得 到 这 些 块 。 这 个 操作 叫做 表 - 扫 描 。 

2. 如 果 R 的 任意 一 个 属性 上 有 索引 ， 我 们 可 以 使 用 这 个 索引 来 得 到 R 的 所 有 元 组 。 比 如 ，R 
上 的 一 个 如 13.1.3 节 中 所 讨论 的 那样 的 稀 蔬 索引 ， 可 以 用 来 引 生 我 们 得 到 所 有 包含 R 的 块 ， 即 


使 除 此 之 外 我 们 并 不 知道 哪些 是 包含 R 的 块 。 这 个 操作 叫做 索引 -扫描 。 

我 们 将 在 15.6.2 节 讨论 o 操作 符 的 实现 时 再 次 考虑 索引 -扫描 。 然 而 ， 就 目前 来 说 ， 最 重要 
的 事实 是 我 们 不 仅 可 以 通过 索引 得 到 它 索 引 的 关系 的 所 有 元 组 ， 还 可 以 通过 索引 得 到 在 构成 索 
引 的 属性 或 属性 组 合 上 具有 特定 值 (或 有 时 是 一 个 特定 值 的 范围 ) 的 那些 元 组 。 
15.1.2 扫描 表 时 的 排序 

在 读 一 个 关系 的 元 组 时 ， 有 很 多 原因 促使 我 们 将 关系 排序 。 其 中 一 个 是 查询 可 能 包含 一 个 
ORDER BY 子 句 ， 要 求 对 关系 做 排序 。 另 一 个 原因 是 关系 代数 运算 的 许多 种 算法 要 求 一 个 或 所 
有 的 操作 对 象 是 排序 的 关系 。 这 些 算 法 在 15.4 节 和 其 他 一 些 地方 出 现 。 

物理 查询 计划 操作 符 排序 -扫描 接受 关系 R 以 及 对 作为 排序 依据 的 属性 组 的 说 明 ， 并 产生 排 
好 顺序 的 R。 实 现 排 序 -扫描 的 方法 有 多 种 : 

a) 如 果 我 们 想 产 生 按 照 属性 a 排序 的 关系 R， 并 且 a 上 有 一 个 B 树 索引 ， 或 R 是 作为 按 a 排序 
的 索引 顺序 文件 来 存储 的 ， 那 么 对 索引 进行 扫描 使 我 们 得 到 具有 所 需 顺序 的 R。 

b) 如 果 我 们 想 要 排序 的 关系 R 很 小 ， 可 以 装 进 内 存 ， 那 么 可 以 使 用 表 扫 描 或 索引 扫描 来 得 
到 它 的 元 组 ， 再 使 用 许多 可 供 使 用 的 有 效 的 内 存 排序 算法 中 的 一 种 。 内 存 排 序 在 许多 这 方面 的 
书 中 进行 了 讨论 ， 这 里 我 们 不 再 考虑 。 

c) 如 果 R 太 大 以 至 于 不 能 装 进 内 存 ， 那 么 11.4.3 节 中 的 多 路 归并 方法 是 一 个 较 好 的 选择 。 但 
是 ,我们 并 不 将 最 终 好 排序 的 R 存 回 磁盘 ， 而 是 根据 对 元 组 的 需要 一 次 产生 R 的 一 个 排 好 序 的 块 。 
15.13 物理 操作 符 计算 模型 

一 个 查询 通常 包括 几 个 关系 代数 运算 ， 相 应 的 物理 查询 计划 由 几 个 物理 操作 符 组 成 。 一 个 

物理 操作 符 通常 是 一 个 代数 操作 符 的 实现 ， 但 正如 我 们 在 15.1.1 节 见 到 的 那样 ， 另 外 有 一 些 物 
理 计划 操作 符 对 应 的 操作 (如 扫描 ) 可 能 是 关系 代数 中 见 不 到 的 。 

既然 明智 地 选择 物理 计划 操作 符 是 一 个 好 的 查询 处 理 器 所 必 不 可 少 的 ， 我 们 必须 能 够 估价 
我 们 使 用 的 每 个 操作 符 的 “代价 ” 。 我 们 将 使 用 磁盘 IO 的 数目 作为 衡量 每 个 操作 的 代价 的 标准 。 
这 个 衡量 标准 与 我 们 的 一 个 观点 ( 见 11.4.1 节 ) 是 一 致 的 ， 即 从 磁盘 中 得 到 数据 的 时 间 比 对 内 
存 中 的 数据 做 任何 有 用 操作 花费 的 时 间 都 长 。 主 要 的 例外 情况 是 在 回答 查询 需要 通过 网 络 进行 
数据 通信 时 。 我 们 在 15.9 节 和 19.4.4 节 讨论 分 布 式 查 询 处 理 。 

在 比较 相同 操作 的 算法 时 ， 我们 将 做 一 个 假设 ， 它 可 能 会 使 我 们 在 开始 时 感到 惊讶 : 

“我 们 假设 任何 操作 符 的 操作 对 象 都 位 于 磁盘 上 ， 但 操作 符 的 结果 放 在 内 存 中 。 

如 果 操 作 符 产生 一 个 查询 的 最 终结 果 ， 这 个 结果 需要 写 到 磁盘 上 ， 那 么 保存 结果 的 代价 仅 
仅 依 赖 于 结果 的 大 小 ， 而 不 依赖 于 结果 是 怎样 被 计算 的 。 我 们 可 以 简单 地 将 最 后 的 回 写 代价 加 
到 这 个 查询 的 总 代价 上 。 但 是 ， 在 许多 应 用 中 ， 结 果 根 本 不 存放 到 磁盘 上 ， 而 是 打印 或 传送 到 
某 个 格式 化 程序 。 于 是 ， 在 输出 上 耗费 的 磁盘 MO 或 者 是 零 ， 或 者 依赖 于 某 个 未 知 的 程序 对 数 
据 所 做 的 操作 。 

同样 ， 形 成 一 个 查询 的 部 分 (而 非 整个 查询 ) 操作 符 的 结果 通常 也 不 写 到 磁盘 上 。 在 15.1.6 
节 中 我 们 将 讨论 “ 选 代 器 "， 其 中 一 个 操作 符 的 结果 在 内 存 中 构造 ， 每 次 可 能 是 一 小 部 分 ， 并 
作为 操作 对 象 传递 给 另 一 个 操作 符 。 在 这 种 情况 下 ， 我 们 不 必 将 结果 写 到 磁盘 上 ， 而 且 ， 还 节 
省 了 使 用 这 一 结果 作为 操作 对 象 的 操作 符 从 磁盘 上 读 取 该 操作 对 象 的 开销 。 这 一 节省 为 查询 优 
化 器 提供 了 极 好 的 机 会 。 
15.1.4 衡量 代价 的 参数 


现在 ， 让 我 们 引入 用 来 表达 一 个 操作 符 代价 的 参数 。 如 果 优 化 器 想 确定 许多 查询 计划 中 的 ” 厅 林 | 
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哪 一 个 执行 最 快 ， 那么 估计 代价 是 必须 的 。16.5 节 将 介绍 这 些 代价 估算 的 使 用 。 

我 们 需要 一 个 参数 来 表达 操作 符 使 用 的 内 存 大 小 ， 还 需要 其 他 参数 来 衡量 它 的 操作 对 象 的 
大 小 。 假 设 内 存 被 分 成 缓冲 区 ， 缓 冲 区 的 大 小 与 磁盘 块 的 大 小 相同 。 那 么 MM 表示 一 个 特定 的 操 
作 符 执行 时 可 以 获得 的 内 存 缓冲 区 的 数目 。 记 住 ， 当 估算 一 个 操作 符 的 代价 时 ， 我 们 不 考虑 产 
生 输 出 结果 所 用 内 存 或 磁盘 1/O 的 代价 ， 因 而 M 仅 包含 容纳 输入 和 操作 符 的 所 有 中 间 结 果 使 用 
的 空间 。 

有 了 时候 ， 就 像 我 们 在 11.4.4 节 中 所 做 的 那样 ， 我 们 可 以 认为 MM 是 整个 内 存 或 内 存 的 绝 大 部 
分 。 但是， 我们 也 将 看 到 几 个 操作 共享 内 存 的 情况 ， 这 时 M 比 整个 内 存 要 小 得 多 。 事 实 上 ， 就 
像 我 们 将 在 15.7 节 中 讨论 的 那样 ， 一 个 操作 可 得 到 的 缓冲 区 的 数目 可 能 不 是 一 个 可 以 预计 的 常 
数 ， 而 可 能 在 执行 过 程 中 根据 同时 执行 的 其 他 进程 来 决定 。 如 果 是 这 样 ，M 实 际 上 是 对 一 个 操 
作 可 得 到 的 缓冲 区 数目 的 估计 。 如 果 估 计 错 误 ， 那 么 实际 的 执行 时 间 将 不 同 于 优化 器 预计 的 时 
间 。 我 们 甚至 可 能 发 现 ， 如 果 查 询 优 化 器 知道 执行 时 真正 的 缓冲 区 可 用 情况 ， 那 么 选 出 的 物理 
查询 计划 可 能 就 会 不 同 。 

另外 ， 让 我 们 来 考虑 测量 访问 参与 操作 的 关系 所 需 代价 的 参数 。 这 些 测量 关系 中 数据 的 多 
少 和 分 布 的 参数 经 常 被 定期 地 计算 ， 以 便 帮 助 查询 优化 器 选择 物理 操作 符 。 

我 们 将 做 一 个 简化 的 假设 ， 即 在 磁盘 上 一 次 访问 一 个 块 的 数据 。 实 际 上 ， 如 果 我 们 能 够 一 
次 读 一 个 关系 的 许多 块 ， 这 些 块 可 能 来 自 一 个 磁道 上 连续 的 块 ， 那 么 11.5 节 中 讨论 的 某 项 技术 
可 能 会 提高 算法 的 速度 。 有 三 类 参数 ，B、T 和 V; | 

* 当 描 述 一 个 关系 R 的 大 小 时 ， 绝 大 多 数 情况 下 ， 我 们 关心 包含 R 的 所 有 元 组 所 需 的 块 的 数 

目 。 这 个 块 的 数目 表示 为 B(R)， 或 者 如 果 我 们 知道 指 的 是 关系 R， 就 可 以 仅仅 表示 为 B。 
通常 ,我们 假设 R 是 聚 徐 的 , 即 R 存 储 在 8 个 块 中 或 近似 B 个 块 中 。 正 如 在 13.1.6 节 中 讨论 的 
那样 ， 实 际 上 我 们 可 能 希望 在 保存 R 的 每 个 块 中 留 出 一 小 部 分 空闲 空间 ， 以 备 将 来 向 R 中 
插 和 数据。 不过， 对 于 为 得 到 完整 的 R 而 需要 从 磁盘 上 读 取 的 块 数 来 说 ，B 通 常 是 一 个 足 
够 好 的 近似 。 我 们 将 使 用 B 来 作为 统一 的 估计 值 。 

。 有 时 候 ， 我 们 也 需要 知道 R 中 的 元 组 的 数目 ， 我 们 将 这 个 数 表示 为 T(R)， 或 在 我 们 知道 所 
指 关 系 为 R 时 简 记 为 T7。 如 果 需 要 一 个 块 中 能 容纳 的 R 的 元 组 数 ， 我 们 可 以 使 用 比率 7/B。 
此 外 ， 有 一 些 情况 下 ， 一 个 关系 分 布地 存储 在 若干 块 中 ， 这 些 块 同时 还 被 其 他 关系 的 元 
组 占用 。 如 果 这 样 ， 那 么 一 个 简化 的 假设 是 R 的 每 个 元 组 要 求 一 个 单独 的 磁盘 读 ， 我 们 
将 使 用 7 作为 这 种 环境 下 读 R 所 需 磁盘 WO 数 的 估算 。 

“最 后 ,我 们 有 时 候 希 望 参考 出 现在 关系 的 列 中 的 不 同 值 的 数目 。 如 果 R 是 一 个 关系 , 它 
的 一 个 属性 是 a， 那 么 V(R,a) 是 R 中 a 对 应 列 上 不 同 值 的 数目 。 更 一 般 地 讲 ， 如 果 [aj, 
42,…,4n] 是 一 个 属性 列表 ， 那 么 V(R,[ai, azn …, aq]) 是 R 中 属性 al an, …, as 对 应 列 不 同 的 n 元 
AKRE., KAZ, BÆ (Maa aR) ) 中 的 元 组 数目 。 

15.1.5 扫描 操作 符 的 MO 代价 

作为 前 面 介绍 的 参数 的 一 个 简单 应 用 ， 我 们 可 以 表示 迄今 为 止 讨论 过 的 每 个 表 - 扫 描 操 作 
符 的 磁盘 IO 数目 。 如 果 关 系 R 是 聚 簇 的， 那么 表 - 扫 描 操 作 符 的 磁盘 IO 数目 近似 为 8B。 同 样 ， 
如 果 R 能 够 装 人 全 部 主 存 ， 那 么 我 们 可 以 通过 将 R 读 人 主 存 并 做 内 排序 ， 从 而 实现 排序 - 扫 措 ， 
所 需 磁盘 1/O 数 仍 是 B。 

如 果 R 聚 禾 ， 但 需要 两 阶段 多 路 合并 排序 ， 那 么 ， 正 如 11.4.4 节 中 讨论 的 那样 ， 我 们 需要 大 
约 38 次 磁盘 WO， 它们 相等 地 分 布 于 在 子 表 中 读 R、 回 写 子 表 和 重读 子 表 的 操作 中 。 记 住 ， 我 们 
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不 将 最 终结 果 的 写 操 作 计 和 人 人， 也 不 计 和 人 积累 的 输出 结果 所 占用 的 内 存 空间 。 而 是 假设 每 一 个 输 
出 块 立 即 被 某 个 其 他 的 操作 消耗 ， 有 可 能 就 是 写 回 磁盘 而 已 。 

但 是 ， 如 果 R 不 是 聚 簇 的 ， 那 么 所 需 的 磁盘 IO 数 通常 较 高 。 如 果 R 分 布 在 其 他 关系 的 元 组 
之 间 ， 那 么 表 - 扫 描 所 需 读 的 块 数 可 能 与 R 的 元 组 一 样 多 ; 即 IO 代 价 为 7T。 类 似 地 ， 如 果 我 们 想 
把 R 排 序 ， 但 是 R 能 被 内 存 容纳 ， 那 么 T 就 是 将 R 的 全 部 元 组 调 人 内 存 所 需 的 磁盘 1/O 数 。 最 后 ， 
如 有 果 R 不 是 取 悉 的 ， 而 且 需 要 进行 两 阶段 排序 ， 那 么 最 初 读 入 子 表 需 要 花费 7 次 磁盘 1/O。 但 是 ， 
我 们 可 以 用 聚 簇 的 方式 存储 和 重读 子 表 ， 因 此 这 些 步 又 仅 需要 28 次 磁盘 IO。 在 一 个 大 的 、 非 
聚 簇 的 关系 上 执行 排序 -扫描 操作 的 总 代价 是 7+2B。 

最 后 ， 让 我 们 考虑 索引 -扫描 的 代价 。 通 常 ， 关 系 R 的 一 个 索引 需要 的 块 数 比 BCR) 少 许多 。 
因此 ， 扫 描 整 个 R( 至 少 需 B 次 磁盘 1/O ) 比 查看 整个 索引 需要 更 多 的 IO 数目 。 这 样 ， 即 便 索 引 - 
扫描 既 需 要 检查 关系 又 需要 检查 它 的 索引 ， 

“我 们 仍 继续 用 B 或 7 作为 使 用 索引 时 访问 整个 聚 角 或 不 聚 簇 的 关系 的 代价 估计 。 

但 是 ， 如 果 不 只 想 要 及 的 一 部 分 ， 我 们 通常 能 够 避免 查看 整个 索引 和 整个 R。 我 们 将 这 些 
索引 的 使 用 推迟 到 15.6.2 节 中 分 析 。 

15.1.6 实现 物理 操作 符 的 和 迭代 器 
许多 物理 操作 符 可 以 作为 迭代 器 实现 。 和 迭代 器 是 三 个 函数 的 集合 ， 这 三 个 函数 允许 物理 操 


为 何 使 用 迭代 器 ? 

我 们 将 在 16.7 节 中 看 到 在 查询 计划 中 ， 和 迭代 器 如 何 组 合 起 来 以 支持 有 效 的 执行 。 它 们 
与 物化 策略 相反 ， 物 化 策略 产生 每 个 操作 符 的 整个 结果 ， 或 者 将 它 存放 在 磁盘 上 ， 或 者 
允许 它 在 内 存 中 占据 空间 。 在 使 用 选 代 器 时 ， 同 一 时 刻 活 跃 的 操作 有 许多 。 元 组 按照 需 
要 在 操作 符 之 间 传 递 ， 这 样 就 减少 了 存储 要 求 。 当 然 ， 正 如 我 们 将 见 到 的 那样 ， 并 非 所 
有 物理 操作 符 对 迭代 方法 或 “流水 线 ” 的 支持 都 是 有 意义 的 。 在 某 些 情 况 下 ， 几 乎 所 有 
的 工作 都 需要 Open 函 数 来 完成 ， 这 样 就 等 效 于 物化 方法 了 。 


作 符 结 果 的 使 用 者 一 次 一 个 元 组 地 得 到 这 个 结果 。 形 成 一 个 操作 的 迭代 器 的 三 个 函数 是 ; 
1. Open。 这 个 函数 启动 获得 元 组 的 过 程 ， 但 并 不 获得 元 组 。 它 初始 化 执行 操作 所 需 的 任 
何 数据 结构 ， 并 为 操作 的 任何 操作 对 象 调 用 open。 

”2. GetNext。 这 个 函数 返回 结果 中 的 下 一 个 元 组 ， 并 且 对 数据 结构 作 必 要 的 调整 以 得 到 
后 续 元 组 。 在 获取 结果 的 下 个 一 元 组 时 ， 它 通常 在 操作 对 象 上 一 次 或 多 次 调用 GetNext。 这 
个 函数 还 设置 一 个 表明 是 否 一 个 元 组 已 产生 或 已 经 没有 元 组 可 产生 的 信号 。 我 们 将 用 Not 
Found 来 作为 一 个 布尔 变量 ， 它 当 且 仅 当 新 元 组 返回 时 为 真 。 

3. Close。 这 个 函数 在 所 有 的 元 组 或 使 用 者 想得到 的 所 有 元 组 都 获得 后 结束 迄 代 。 它 通常 
为 操作 符 的 每 个 操作 对 象 调用 close。 

当 描 述 选 代 器 和 它 的 函数 时 ， 我 们 假设 每 一 类 的 迭代 器 〈 即 每 一 类 作为 迭代 器 来 实现 的 物 
理 操作 符 )， 都 有 一 个 “类 ”。 这 个 类 的 实例 支持 Open ，GetNext 和 Close 方 法 。 

例 15.1 ”最 简单 的 迭代 器 可 能 是 表 - 扫 描 操 作 符 的 实现 。 假 设 我 们 想 执行 rablescan (R) ， 
其 中 R 是 聚集 在 某 个 块 序列 中 的 关系 ， 我 们 可 以 很 方便 地 访问 它 。 因 此 ， 我 们 假设 “得 到 及 的 
下 一 个 块 ”这 一 想法 由 存储 系统 实现 ， 不 需要 详细 描述 。 此 外 ， 我 们 假设 块 内 有 一 个 记录 (元 
组 ) 的 目录 ， 这 样 可 以 容易 地 得 到 块 中 的 下 一 个 元 组 或 者 判断 是 否 到 达 最 后 一 个 元 组 。 、 










图 15-3 简 略 描述 了 这 个 迭代 符 的 三 个 函数 。 我 们 设想 有 块 指针 bp 和 指向 块 p 中 元 组 的 元 组 指 
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针 1。 假 设 这 两 个 指针 分 别 可 以 “超出 ”最 后 一 个 块 和 最 后 一 个 元 组 ， 并 且 在 这 两 种 情况 发 生 
时 能 够 指明 。 注 意 在 这 个 例子 中 close 没 做 什么 事 。 实 际 上 ， 适 代 符 的 Close 函 数 可 能 以 各 种 
方式 清除 DBMS 的 内 部 结构 。 它 可 能 通知 缓冲 区 管理 器 某 些 缓冲 区 已 不 再 需要 ， 或 者 通知 并 发 
管理 器 关系 的 读 操作 已 经 完成 。 口 


Open() { 
b := the first block of R; 
t := the first tuple of block b; 


} 


GetNext) { 
IF (t is past the last tuple on block b) { 
increment b to the next block; 
IF (there is no next block) 
RETURN NotFound; 
ELSE /* b is a new block */ 
t := first tuple on block b; 
} /* now we are ready to return t and increment */ 
oldt := t; 
increment t to the next tuple of b; 
RETURN oldt; 
} 


Close() { 
} 





图 15-3 表 - 扫 描 操 作 符 的 一 个 迭代 器 


例 15.2 现在 ,让 我 们 考虑 一 个 迭代 器 在 它 的 0pen 函数 中 执行 大 部 分 工作 的 例子 。 操 作 符 
是 排序 -扫描 ， 其 中 我 们 读 一 个 关系 R 的 元 组 ， 按 照排 好 的 顺序 将 它们 返回 。 此 外 ， 让 我 们 假设 
R 很 大 ， 我 们 需要 使 用 11.4.4 节 中 所 述 的 两 阶段 、 多 路 归并 排序 。 

在 检查 完 R 的 每 一 个 元 组 之 前 ， 我 们 甚至 连 第 一 个 元 组 也 不 能 返回 。 因 此 open 至 少 必须 做 
下 面 的 工作 : ， 

1. R 的 所 有 元 组 读 人 若干 大 小 与 主 存 相等 的 chunk 中 ， 将 它们 排序 ， 并 把 它们 存储 到 磁 
盘 上 。 - 

2. 为 第 二 阶段 (归并 ) 初始 化 数据 结构 ， 并 将 每 个 子 表 的 第 一 块 装 入 主 存 数据 结构 中 。 
然后 ，GetNext 就 可 以 让 所 有 子 表 头 部 剩 下 的 第 一 个 元 组 进行 竞争 。 如 果 来 自 获 胜 子 表 的 块 
已 经 空 了 ，GetNext 就 重新 装载 其 缓冲 区 口 


例 15.3 最后， 我 们 考虑 一 个 关于 多 个 和 迭代 器 怎样 通过 调用 其 他 迭代 器 而 结合 起 来 的 简单 
例子 。 对 于 多 个 迭代 器 怎样 能 同时 处 于 活路 状态 来 说 ， 这 并 不 是 一 个 很 好 的 例子 ， 这 个 问题 需 
要 推迟 到 我 们 考虑 过 像 选 择 或 连接 这 样 的 物理 操作 符 的 算法 后 ， 这 些 算法 能 更 好 地 开发 迭代 器 
的 能 力 。 

我 们 的 操作 是 包 的 并 RUS， 这 里 我 们 首先 产生 R 的 所 有 元 组 ， 再 产生 的 所 有 元 组 ， 而 不 
必 考 虑 是 否 存 在 重复 。 我 们 假设 有 形成 R 的 迭代 器 的 函数 R.Open、R.GetNext 和 R.Close, 
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对 于 关系 S 也 有 类 似 的 函数 。 如 果 R 和 5 是 存储 的 关系 ， 那 么 这 些 函 数 可 能 是 施加 于 R 和 5S 上 的 表 - 
扫描 函数 ， 否 则 可 能 是 调用 其 他 迭代 器 的 网 络 来 计算 R 和 5 的 迁 代 器 。 这 一 并 操作 的 迄 代 器 区 数 
在 图 15-4 中 进行 了 描述 。 巧 妙 之 处 在 于 函数 使 用 了 一 个 共享 变量 curRe1， 它 是 R 还 是 5 取决 于 
当前 正在 读 哪 一 个 关系 。 口 


Open() { 
R.Open() ; 
CurRel := R; 

} 


GetNext() { 
IF (CurRel = R) { 
t := R.GetNext(); 
IF (t <> NotFound) /* R is not exhausted */ 
RETURN t; 
ELSE /* R is exhausted */ { 
$.Open() ; 
CurRel := 5; 
} 
} 
/* here, we must read from S */ 
RETURN S.GetNext (); 
/* notice that if S is exhausted, $.GetNext() 
will return NotFound, which is the correct 
action for our GetNext as well */ 


} 


Close() { 
R.Close(); 


S.Close(); 


} 





图 15-4 用 部 件 构建 一 个 并 和 迭代 器 


15.2 数据 库 操作 的 一 趟 算法 


我 们 现在 将 开始 学 习 查询 优化 中 一 个 非常 重要 的 问题 : 怎样 执行 逻辑 查询 计划 中 的 每 个 单 
独 的 步骤 (例如 ， 连 接 或 选择 ) ? 每 一 个 操作 符 的 算法 的 选择 是 将 逻辑 查询 计划 转变 成 物理 查 
询 计 划 过 程 中 的 一 个 必 不 可 少 的 部 分 。 关 于 操作 已 提出 了 很 多 算法 ， 它 们 大 体 上 分 为 三 类 ， 

1. 基于 排序 的 方法 。 这 些 方法 主要 在 15.4 节 中 讲述 。 722 

2. 基于 散 列 的 方法 。 这 些 方法 在 15.5 节 、15.9 节 以 及 其 他 一 些 地 方 提 到 。 

3. 基于 索引 的 方法 。 这 些 方法 在 15.6 节 中 着 重 提出 。 

另外 ， 我 们 可 以 将 操作 符 算法 按照 难度 和 代价 分 成 三 种 “等 级 ”: 

a) 一 些 方法 仅 从 磁盘 读 取 一 次 数据 ,这 就 是 一 越 算法 。 它 们 是 本 节 的 主题 。 尽管 存 在 例外 ， 
尤其 是 像 15.2.1 节 讨论 的 选择 和 投影 ， 但 通常 仅 当 操 作 的 至 少 一 个 操作 对 象 能 装 人 内存 时 它们 
才 有 效 。 

b) 一 些 方法 处 理 的 数据 量 太 大 以 至 于 不 能 装 人 人 内存， 但 又 不 是 可 想像 的 最 大 的 数据 集合 。 
这 种 算法 的 一 个 例子 是 11.4.4 节 中 的 两 阶段 、 多 路 归并 排序 。 这 些 两 趟 算法 的 特点 是 首先 从 磁 
盘 读 一 遍 数 据 ， 用 某 种 方式 处 理 ， 并 将 全 部 或 绝 大 部 分 写 回 磁盘 ， 然 后 在 第 二 趟 中 为 了 进一步 
处 理 ， 再 读 一 遍 数据 。 我 们 将 在 15.4 节 和 15.5 节 中 见 到 这 些 算法 。 
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c) 某 些 方法 对 处 理 的 数据 量 没有 限制 。 这 些 方法 用 三 趟 或 更 多 趟 来 完成 工作 ， 它 们 是 对 两 
阶段 算法 的 自然 的 递归 的 推广 。 我 们 将 在 15.8 节 学 习 多 趟 方法 。 

本 节 中 ， 我 们 主要 讨论 一 趟 算法 。 然 而 ， 无 论 在 本 节 中 还 是 在 后 面 ， 我 们 都 将 把 操作 符 分 
HERE: 

1. 一 次 多 元 组 ， 一 元 操作 。 这 类 操作 (选择 和 投影 ) 不 需要 一 次 在 内 存 中 装 人 整个 关系 ， 
甚至 也 不 需要 关系 的 大 部 分 。 这 样 ， 我 们 一 次 可 以 读 一 个 块 ， 使 用 内 存 缓冲 区 ， 并 产生 我 们 的 
输出 。 

2. 整个 关系 ， 一 元 操作 。 这 些 单 操作 对 象 的 操作 需要 一 次 从 内 存 中 看 到 所 有 或 大 部 分 元 组 ， 
因此 ， 一 趟 算法 局 限于 大 小 约 为 M 或 更 小 的 关系 。 这 里 我 们 考虑 的 属于 这 一 类 的 操作 是 7 和 6。 

3. 整个 关系 ， 二 元 操作 。 其 他 所 有 的 操作 可 以 归 为 这 一 类 : 并 、 交 、 差 、 连 接 和 积 的 集合 
形式 以 及 包 形式 。 我 们 将 发 现 ， 如 果 要 用 一 趟 算法 ,那么 这 类 操作 中 的 每 一 个 都 要 求 至 少 一 个 
操作 对 象 的 大 小 限制 在 W 以 内 。 

15.2.1 一 次 多 元 组 操作 的 一 趟 算法 

无 论 关系 R 能 否 被 内 存 容纳 ， 一 次 多 元 组 运算 o(R) 和 x(R) 都 有 显而易见 的 算法 。 正 如 图 
15-5 所 示 ， 我 们 一 次 读 取 R 的 一 块 到 输 
人 入 缓 神 区 ， 对 每 一 个 元 组 进行 操作 ， 并 
将 选 出 的 元 组 或 投影 得 到 的 元 组 移 至 输 
出 缓冲 区 。 由 于 输出 缓冲 区 可 能 是 其 他 
操作 的 输入 缓冲 区 ， 或 正在 向 用 户 或 应 
用 发 送 数据 ， 因 而 我 们 不 把 输出 缓冲 区 
算 在 所 需 空间 内 。 因 此 ， 不管 8 怎样 ， 
我 们 只 要 求 输 入 缓冲 区 满足 M 宇 1。 

这 一 过 程 的 磁盘 IO 需求 取决 于 作 给 入 缓冲 区 输出 缓冲 区 
为 操作 对 象 的 关系 R 是 怎样 提供 的 。 如 图 15-5 在 关系 R 上 执行 选择 或 投影 运算 
果 R 最 初 在 磁盘 上 ， 那 么 代价 就 是 执行 i 
一 个 表 - 扫 描 或 索引 -扫描 所 需 的 代价 。 这 一 代价 已 在 15.1.5 中 讨论 过 ; 通常 ， 如 果 R 是 聚集 的 ， 
代价 就 是 8; 如 果 R 不 是 聚集 的 ， 代 价 就 是 T。 然 而 ， 我 们 需要 再 次 提醒 读者 ， 当 执行 的 操作 
是 一 个 选择 ， 其 条 件 是 比较 一 个 常量 和 一 个 带 索 引 的 属性 时 ， 这 是 一 个 重要 的 例外 。 这 种 情 
况 下 ， 我 们 可 以 使 用 索引 来 检索 R 所 在 块 的 一 个 子 集 ， 这 样 通常 会 显著 地 提高 执行 效率 。 









额外 的 缓冲 区 可 以 加 快 操作 

正如 图 15-5 所 指示 的 ， 尽 管 一 次 多 元 组 操作 只 通过 一 个 输入 缓冲 区 和 一 个 输出 缓冲 区 
可 以 实现 ， 但 如 果 分 配 更 多 的 缓冲 区 可 以 加 速 处 理 过 程 。 这 个 想法 最 初 在 11.5.1 节 中 出 现 。 
如 果 有 存储 在 柱 面 上 连续 的 块 中 ， 那 么 我 们 可 以 读 取 完 整 的 柱 面 到 缓冲 区 ， 尽 管 为 每 一 个 
柱 面 仅 一 个 块 的 查询 时 间 和 旋转 延迟 付出 了 代价 。 类 似 地 ， 如 果 操 作 的 输出 可 以 存储 在 
全 部 的 柱 面 上 ， 我 们 在 写 入 上 几乎 不 浪费 时 间 。 








15.2.2 全 关系 的 一 元 操作 的 一 趟 算法 
现在 让 我 们 考虑 施加 于 整个 关系 上 而 非 施加 于 元 组 上 的 一 元 操作 : 消除 重复 (6 ) 和 分 组 
(Yo 


消除 重复 

为 了 消除 重复 ,我 们 可 以 一 次 一 个 地 读 取 R 的 每 一 块 ， 但 是 对 每 一 个 元 组 ， 我 们 需要 判断 
是 否 : 

1. 这 是 我 们 第 一 次 看 到 这 个 元 组 ， 这 时 我 们 将 它 复制 到 输出 ; 或 者 

2. 我 们 从 前 见 过 这 个 元 组 ， 这 时 我 们 不 必 输 出 它 。 

为 支持 这 个 判定 ,我们 需要 为 见 过 的 每 一 个 元 组 在 内 存 中 保存 一 个 备份 ， 如 图 15-6 所 示 。 
一 个 内 存 缓冲 区 保存 一 个 R 的 元 组 的 块 ， 
其 余 的 M - 1 个 缓冲 区 可 以 用 来 保存 到 目 
前 为 止 我 们 见 过 的 每 个 元 组 的 一 个 副本 。 

当 存 储 已 经 见 过 的 元 组 时 ， 必 须 注 意 
我 们 使 用 的 内 存 数据 结构 。 我 们 可 以 简单 
地 列 出 我 们 见 过 的 所 有 元 组 。 当 考虑 R 中 
的 一 个 新 元 组 时 ， 我 们 将 它 与 迄今 为 止 看 
到 的 所 有 元 组 比较 ， 如 果 它 与 这 些 元 组 当 
中 的 任何 一 个 都 不 相等 ， 就 把 它 复制 到 输 
出 ,并 将 它 加 入 到 存在 于 内 存 中 我 们 所 看 
到 的 元 组 的 列表 中 。 

然而 ， 如 果 内 存 中 有 n 个 元 组 ， 每 一 M- ! 个 缓冲 区 输出 缓冲 
个 新 元 组 占用 的 处 理 器 时 间 与 a 成 比例 。 图 15-6 一 趟 消除 重复 的 内 存 管理 
因此 整个 操作 占用 的 处 理 器 时 间 与 好 成 比例 。 由 于 n 可 能 会 非常 大 ， 对 于 我 们 所 作 的 只 有 磁 
盘 I/O 需 要 大 量 时 间 这 一 假设 来 说 ， 这 样 的 时 间 量 将 带 来 严重 的 问题 。 因 此 ， 我 们 需要 一 个 主 
存 结构 ， 它 允许 下 面 的 每 一 项 操作 : 

1. 增加 一 个 新 元 组 ， 以 及 

2. 辨别 一 个 给 定 的 元 组 是 否 已 经 存在 ; 
在 接近 于 一 个 常量 的 时 间 内 完成 ， 而 不 依赖 于 目前 我 们 在 内 存 中 拥有 的 元 组 数量 n。 已 知 的 这 
样 的 结构 有 很 多 。 例 如 ， 我 们 可 以 使 用 具有 大 量 桶 的 散 列表 或 某 种 形式 的 平衡 二 分 查找 树 9 。 
每 一 种 结构 除了 需要 存储 元 组 的 空间 外 ， 还 需要 一 些 开销 。 例 如 ， 一 个 主 存 散 列 表 需 要 一 个 
桶 数组 和 连接 桶 内 元 组 的 指针 空间 。 然 而 ， 所 需 额外 空间 与 存储 元 组 所 需 空间 相 比 一 般 较 小 。 
因此 我 们 将 做 一 个 简化 的 假设 ， 即 不 需要 额外 的 空间 ， 并 把 重点 放 在 内 存 中 存储 元 组 的 空间 
需求 上 。 

基于 这 个 假设 ， 我 们 可 以 在 主 存 的 M - 1 个 可 用 缓冲 区 存储 与 R 的 M -1 个 块 所 能 容纳 的 一 
样 多 的 元 组 。 如 果 我 们 希望 R 的 每 个 惟一 的 元 组 的 一 个 副本 能 装 在 主 存 中 ， 那 么 BC6CR)) 肯 定 不 
能 超过 M - 1。 因 为 我 们 预计 M 远 远大 于 1， 我 们 将 经 常用 到 的 这 个 规则 的 一 个 简单 近似 是 : 

° B(6(R)) EM 
ES, 通常 在 没有 计算 出 C&R) 本 身 时 ， 我 们 不 能 计算 6 (R) 的 大 小 。 如 果 我 们 低估 了 这 个 值 ， 因 
而 8(C(R)) 实 际 上 大 于 M， 那 么 我 们 将 为 系统 颠 徐 付 出 惨重 的 代价 ， 因 为 保存 R 中 惟一 元 组 的 块 
必须 频繁 地 出 人 主 存 。 





o 关于 合适 的 内 存 数据 结构 的 讨论 ， 请 参见 Aho、A.V J. E. Hopcroft, 和 J. D. Ullman 的 《Data Structures and 
Algorithm) (Addison-Wesley, 1984)。 特 别 地 ， 散 列 平 均 花 费 0(9) 的 时 间 来 处 理 n 顶 ， 平衡 树 花费 O(nlogn) 的 时 
间 。 这 两 者 都 能 足够 接近 我 们 的 线性 目标 。 
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分 组 

分 组 操作 给 我 们 零 个 或 多 个 分 组 属性 以 及 可 能 的 一 个 或 多 个 聚集 属性 。 如 果 我 们 在 主 存 
中 为 每 一 个 组 ( 也 就 是 为 分 组 属性 的 每 一 个 值 ) 创建 一 个 项 ， 那 么 我 们 可 以 一 次 一 块 地 扫描 R 
的 元 组 。 每 个 组 的 项 包括 分 组 属性 的 值 和 每 个 聚集 的 一 个 或 多 个 累计 值 。 除 了 一 种 情况 外 ， 累 
计 的 值 是 显而易见 的 : 

。 对 MIN(a) 或 MAX(a) 聚 集 来 说 ， 分 别 记 录 组 内 迄今 为 止 见 到 的 任意 元 组 在 属性 sc 上 的 最 小 

或 最 大 值 。 每 当 见 到 组 中 的 一 个 元 组 时 ， 如 果 合 适 ， 就 改变 这 个 最 小 值 或 最 大 值 。 

。 对 于 任意 COUNT 素 集 来 说 ， 为 组 中 见 到 的 每 个 元 组 加 1。 

。 对 SUM (a) 来 说 ， 在 迄今 为 止 扫 描 到 的 累加 值 上 增加 属性 a 的 值 。 

*AVG (a) 的 情况 复杂 。 我 们 必须 保持 两 个 累计 : 组 内 元 组 个 数 以 及 这 些 元 组 在 a 上 的 值 的 

Al, 二 者 的 计算 分 别 与 我 们 为 COUNT 和 suUM 聚 集 所 做 的 一 样 。 当 R 中 所 有 元 组 都 被 扫描 后 ，. 
计算 总 和 和 个 数 的 商 以 得 到 平均 值 。 

当 R 的 全 部 元 组 都 已 经 读 到 输入 缓冲 区 中 ， 并 且 已 用 于 各 自分 组 中 夷 集 的 计算 时 ， 我 们 就 
可 以 通过 为 每 个 组 写 一 个 元 组 来 产生 输出 。 注 意 ， 直 到 扫描 最 后 一 个 元 组 后 ， 我 们 才 开 始 为 y 
操作 创建 输出 。 这 一 情况 的 一 个 推论 是 ， 这 种 算法 并 不 太 适 合 和 迭代 器 结构 ; 在 第 一 个 元 组 被 
GetNext 检 索 到 以 前 ， 全 部 的 组 必须 用 Open 函数 分 好 。 

为 了 使 每 一 个 元 组 在 内 存 的 处 理 过 程 更 有 效 ， 需 要 使 用 一 个 内 存 数据 结构 来 帮助 我 们 在 已 
知 分 组 属性 值 时 找到 各 分 组 的 项 。 就 像 前 面 讨论 的 5 操作 那样 ， 通 常 的 内 存 数据 结构 ， 如 散 列 
表 和 平衡 二 分 检索 树 能 发 挥 很 好 的 作用 。 然 而 我 们 应 该 记 住 ， 这 种 结构 的 查找 关键 字 只 能 是 分 
组 属性 。 

这 个 一 趟 算法 所 需 磁盘 1/O 数 是 8B， 与 任何 一 元 运算 的 一 趟 算法 相同 。 尽 管 通常 情况 下 M 将 
小 于 B， 所 需 内 存 缓冲 区 数 M 与 8 的 关系 不 是 任何 一 种 简单 的 形式 。 问 题 在 于 组 的 项 可 能 比 R 的 
元 组 长 一 些 或 短 一 些 ， 并 且 组 的 数目 可 能 是 等 于 或 小 于 R 元 组 的 数目 的 任意 一 种 情况 。 然 而 大 
多 数 情 况 下 ， 组 的 项 不 会 比 R 的 元 组 长 ， 而 且 组 的 数目 远 小 于 元 组 数目 。 
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础 上 进行 的 预测 。 在 操作 对 象 R 没 有 聚 稚 的 情况 下 (通常 较 罕见 )， 读 取 丸 的 全 部 元 组 可 能 需 
要 我 们 进行 T(R) 次 而 非 BCR) 次 磁盘 IO。 然 而 请 注意 ， 任 何 作为 操作 结果 的 关系 总 是 可 以 

”被 设想 为 聚 徐 的 ， 因 为 我 们 没有 理由 以 非 聚 答 的 形式 存储 临时 关系 


15.2.3 二 元 操作 的 一 趟 算法 

现在 我 们 开始 讨论 二 元 操作 : 并 、 交 、 差 、 积 和 连接 。 由 于 在 某 些 情况 下 我 们 必须 区 分 这 
些 操 作 符 的 集合 版 本 和 包 版 本 ， 我 们 用 下 标 B 和 s 来 分 别 表示 “ 包 ” 和 “集合 ”"， 例 如 ，U; 是 
包 的 并 ，- 5 是 集合 的 差 。 为 了 简化 连接 的 讨论 ， 我 们 将 仅 考虑 自然 连接 。 将 局 性 适当 地 重 命 
名 后 ， 等 值 连接 可 以 按照 相同 方式 实现 ， 并 且 6 连 接 可 以 被 认为 是 在 积 或 等 值 连 接 后 再 跟 上 那 
些 在 等 值 连 接 中 不 能 表达 的 条 件 。 

包 的 并 可 以 通过 一 种 非常 简单 的 一 趟 算法 计算 出 来 。 为 了 计算 RUS, BATS ICH R 的 













` 每 一 个 元 组 到 输出 ,然后 复制 S 的 每 一 个 元 组 ， 就 像 我 们 在 例 15.3 中 所 做 的 那样 。 磁 盘 1/O 数 


是 B(R) + B(S)， 正 如 操作 对 象 R 和 8 上 的 一 趟 算法 所 必 和 需 的 那样 ， 并 目 不 管 R 和 5 多么 大 ，M 
= 1 就 足够 了 。 


Bt 


其 他 的 二 元 操作 需要 将 R 和 5 中 较 小 的 那个 操作 数 读 到 内 存 中 ,并且 建立 一 个 合适 的 数据 结 
构 ， 就 像 15.2.2 节 中 讨论 的 那样 ， 使 元 组 不 仅 可 以 被 快速 插入 还 可 以 被 快速 检索 到 。 和 前 面 一 
样 ， 散 列表 或 平衡 树 就 可 以 满足 要 求 。 这 种 结构 需要 少量 空间 (除了 元 组 本 身 的 空间 )， 我 们 将 
忽略 不 计 。 因 此 ， 在 关系 R 和 8 上 用 一 趟 执行 一 个 二 元 操作 的 近似 需求 是 : 

* min(B(R),B(S)) <M 

这 个 规律 假定 一 个 缓冲 区 将 被 用 来 读 取 较 大 关系 的 块 ， 而 大 约 M 个 缓冲 区 用 来 容纳 整个 较 
小 的 关系 和 它 的 内 存 数 据 结 构 。 

现在 我 们 将 给 出 各 种 操作 的 细节 。 在 每 一 种 情况 下 ， 我 们 假定 R 是 两 个 关系 中 较 大 的 一 个 ， 
并 且 我 们 将 把 $ 放 在 内 存 中 。 
集合 并 

我 们 将 8 读 到 内 存 的 M - 1 个 缓冲 区 中 并 且 建 立 一 个 查找 结构 ， 其 查找 关键 字 是 整个 元 组 。 
所 有 的 这 些 元 组 也 都 复制 到 输出 。 然 后 我 们 一 次 一 块 地 将 R 的 每 一 块 读 到 第 M 个 缓冲 区 。 对 于 R 
的 每 一 个 元 组 :， 我 们 观察 {是否 在 中 ， 如 果 不 在 ， 我 们 就 将 复制 到 输出 。 如 果 : 也 在 5 中 ， 我 
们 就 跳 过 to 
集合 交 

将 8 读 到 M - 1 个 缓冲 区 中 ， 并 建立 将 整个 元 组 作为 查找 关键 字 的 查找 结构 。 读 取 R 的 每 一 
个 块 ， 并且 对 R 的 每 个 元 组 :， 观察 是 否 也 在 S 中 。 如 果 在 ,我们 将 ! 复 制 到 输出 ， 而 如 果 不 在 ， 
则 忽略 
集合 差 

既然 差 不 是 一 种 可 交换 的 操作 符 、 我 们 必须 区 别 R- 5S AIS - sR， 并 继续 假设 R 是 较 大 的 关 
系 。 在 两 种 情况 下 ， 我 们 都 将 $ 读 到 M - 1 个 缓冲 区 中 ， 并 建立 将 整个 元 组 作为 查找 关键 字 的 查 
找 结构 。 

为 了 计算 R - S$， 我 们 读 取 R 的 每 一 个 块 ， 并 且 检 查 块 中 的 每 一 个 元 组 :。 如 果 t 在 5 中 ， 那 么 
忽略 6 如 果 { 不 在 S 中 ， 则 将 复制 到 输出 。 

为 了 计算 5 - sR， 我 们 读 取 R 的 每 一 个 块 ， 并 依次 检查 每 一 个 元 组 :。 如 果 f 在 S 中 ， 那 么 我 们 
从 主 存 中 $ 的 副本 里 删 掉 :， 而 如 果 t 不 在 Ss 中 ， 则 我 们 不 做 任何 处 理 。 在 考虑 完 R 的 每 一 个 元 组 
后 ， 我 们 将 8 中 剩余 的 那些 元 组 复制 到 输出 。 
Ax 

我 们 将 5 读 到 M - 1 个 缓冲 区 中 ， 但 是 把 每 一 个 不 同 的 元 组 与 一 个 计数 联系 起 来 ， 其 初 值 是 
该 元 组 在 $ 中 出 现 的 次 数 。 元 组 ! 的 多 个 副本 并 不 分 别 存储 。 相 反 ， 我 们 存储 ;的 一 个 副本 并 且 将 
它 与 一 个 计数 联系 起 来 ， 计 数值 等 于 ! 出 现 的 次 数 。 

如 果 很 少 有 重复 的 话 ， 那 么 这 种 结构 将 占用 比 8(5) 块 稍 大 的 空间 ， 尽 管 结果 经 常 是 S 被 压 
缩 。 因 此 ， 我 们 将 继续 假设 8(3) <M 足 以 运行 一 趟 算法 ， 尽 管 这 个 条 件 只 是 一 个 近似 。 

接着 ,我 们 读 取 R 的 每 一 块 ， 并 且 对 于 R 的 每 一 个 元 组 :我 们 观察 :是否 在 5 中 出 现 。 如 果 不 
EA, 那么 我 们 忽略 1; 它 不 会 出 现在 交 中 。 然 而 ， 如 果 : 在 S 中 出 现 ， 并 且 与 对 应 的 计数 仍 为 
正 值 ， 那 么 我 们 输出 :并 将 计数 减 1 。 如 果 ! 在 $ 中 出 现 ， 但 是 它 的 计数 器 已 经 到 0， 那么 我 们 不 
输出 t; 我 们 在 输出 中 已 经 产生 的 1 的 副本 和 Ss 中 的 一 样 多 。 | 
包 差 

为 了 计算 5 - sR， 将 5 的 元 组 读 到 内 存 中 ， 并 且 像 我 们 在 计算 包 交 和 集 时 那样 统计 每 一 个 不 同 
的 元 组 出 现 的 次 数 。 当 读 取 R 时 ， 对 每 一 个 元 组 :， 观察 :是否 在 5 中 出 现 ， 如 果 是 ， 那么 我 们 将 
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与 之 对 应 的 计数 递减 1。 最 后 ， 将 内 存 中 计数 是 正 数 的 每 一 个 元 组 复制 到 输出 ， 并 且 我 们 复制 
它 的 次 数 等 于 其 计数 。 

为 了 计算 R- ss， 我 们 也 将 的 元 组 读 到 内 存 中 ， 并 且 统 计 每 一 个 不 同 的 元 组 出 现 的 次 数 。 
当 读 取 R 的 元 组 时 ,我 们 可 以 把 具有 计数 是 c 的 元 组 :着 做 是 不 将 理 制 到 输出 的 c 个 理由 。 也 就 是 
说 ， 当 读 取 R 的 一 个 元 组 时, 我 们 观察 是 否 在 S 中 出 现 。 如 果 不 出 现 ， 那么 我 们 将 ! 复 制 到 输出 。 
如 果 ! 确 实在 S 中 出 现 ， 那 么 我 们 看 与 ! 对 应 的 计数 c 的 当前 值 。 如 果 c=0， 那 么 我 们 将 :复制 到 输 
出 。 如 果 c>0 ， 那 么 不 将 者 制 到 输出 ， 但 是 将 c 值 减 1。 
乘积 

将 $ 读 到 主 存 的 M - 1 个 缓冲 区 中 ， 不 需要 特殊 的 数据 结构 。 然 后 读 取 R 的 每 一 个 块 ， 并 且 对 
R 中 的 每 一 个 元 组 ,将 {与 主 存 中 5 的 每 一 个 元 组 连接 。 在 每 一 个 连接 而 成 的 元 组 形成 后 即将 
其 输出 。 

注意 ， 对 有 R 的 每 一 元 组 ， 这 种 算法 都 可 能 占用 相当 多 的 处 理 器 时 间 ， 因 为 每 一 个 这 样 的 元 
组 必须 和 装 满 元 组 的 M - 1 个 块 相 匹 配 。 然 而 ， 输 出 所 占 空间 也 很 大 ， 因 此 每 个 输出 的 元 组 所 
用 的 时 间 很 少 。 


如 果 不 知道 W 会 怎样 ? 
尽管 在 我 们 对 算法 的 介绍 中 可 用 内 存 块 数 MM 似乎 是 固定 的 并 且 是 预知 的 ,但 是 请 记 住 ， 
除了 一 些 明显 的 限制 例如 机 器 的 总 的 内 存 容 量 以 外 ， 可 用 块 数 M 通 常 是 未 知 的 。 因 此 ， 当 
查询 优化 器 在 一 趋 算法 和 两 越 算 法 之 间 进 行 选择 时 ， 可 能 估计 M 值 并 且 基 于 这 种 估计 做 出 


选择 。 如 果 优 化 器 估计 错误 ， 其 后 果 是 造成 缕 冲 区 在 磁盘 和 内 存 之 间 其 纂 (如 果 对 MM 的 估 
计 太 高 )， 或 者 在 低估 M 值 时 导致 多 余 的 趟 数 。 

也 有 一 些 算法 ， 在 内 存 容 量 小 于 预期 值 时 性 能 的 降低 不 至 于 太 唐 突 。 例 如 ， 我 们 可 
以 像 一 赵 算 法 那样 做 ， 直 到 耗 尽 空间 ， 然 后 再 开始 按 两 赵 算 法 来 做 。15.5.6 节 和 15.7.3 节 
讨论 一 些 这 样 的 方法 。 





自然 连接 

在 这 一 连接 算法 和 其 他 连接 算法 中 ， 我 们 沿袭 惯例 ， 即 R(X, 了 与 S(Y, 刀 连接， 了 表示 R 和 5 的 
所 有 公共 属性 ，X 是 R 的 所 有 不 在 5 的 模式 中 的 属性 ， 并 且 Z 是 $ 的 所 有 不 在 R 的 模式 中 的 属性 。 
我 们 继续 假设 $5 是 较 小 的 关系 。 要 计算 自然 连接 ， 请 执行 以 下 步 又: 

1. 读 取 5 的 所 有 元 组 并 且 用 它们 构造 一 个 以 Y 的 属性 为 查找 关键 字 的 内 存 查 找 结构 。 和 平常 
一 样 ， 散 列表 或 平衡 树 是 这 种 结构 的 很 好 的 例子 。 将 内 存 的 M - 1 块 用 于 这 一 目的 。 

2. 将 R 的 每 一 块 读 到 内 存 中 剩 下 的 那 一 个 缓冲 区 中 。 对 于 R 的 每 一 个 元 组 :， 利 用 查找 结构 
找到 5 中 与 在 Y 的 所 有 属性 上 相符 合 的 元 组 。 对 于 $ 中 每 一 个 匹配 的 元 组 ， 将 它 与 :连接 后 形成 
一 个 元 组 ,并且 将 结果 元 组 移 到 输出 。 

和 所 有 一 趟 的 二 元 操作 算法 一 样 ， 这 一 算法 读 取 操作 对 象 需要 使 用 B(R)+B(S) 次 磁盘 IO。 
只 要 B(S)<M — 1 或 近似 地 BCS) <M， 它 就 能 正常 工作 。 和 我 们 学 习 过 的 其 他 算法 一 样 的 还 有 ， 
内 存 的 查找 结构 所 需 空间 没有 计 人 ， 但 这 可 能 需要 一 个 小 的 、 额 外 的 内 存 空 间 。 

我 们 不 打算 讨论 自然 连接 以 外 的 连接 。 记 住 , 等 值 连接 以 与 自然 连接 基本 相同 的 方式 执行 ， 
但 是 我 们 必须 考虑 两 个 关系 的 “相等 ”属性 可 能 有 不 同 的 名 字 这 一 事实 。 不 是 等 值 连接 的 8 连 
接 可 以 用 在 等 值 连接 或 积 之 后 加 以 选择 来 代替 。 

15.2.4 习题 
习题 15.2.1 对 于 下 面 的 每 一 个 操作 ， 利 用 本 节 中 描述 的 算法 为 其 书写 一 个 迭代 器 。 


* a) 投影 。 
* b) 消除 重复 (9)。 
c) DE )。 
* d) 集合 并 。 
e) 集合 交 。 
f) 集合 差 。 
g) EX. 
h) 422, 
i) 乘积 。 
j) 自然 连接 。 
习题 15.2.2 对 于 习题 15.2.1 中 的 每 一 个 操作 符 ， 判 别 它 是 否 是 阻塞 的 ， 阻 塞 意味 着 直到 所 
有 的 输入 都 读 人 以 后 才能 产生 第 一 个 输出 。 换 句 话 说， 阻塞 操作 符 惟 一 可 行 的 迭代 器 是 由 
open 完 成 所 有 重要 的 工作 。 
习题 15.2.3 ”图 15-9 概 括 了 本 节 和 下 一 节 中 算法 的 内 存 和 磁盘 IO 需求 。 然 而 ， 它 假设 所 有 
操作 对 象 都 是 聚 簇 的 。 如 果 一 个 或 所 有 操作 对 象 不 是 聚 簇 的， 图 中 的 项 将 怎样 变化 ? 
! 习题 15.2.4 给 出 以 下 每 一 个 类 连接 的 一 趟 算法 。 
* a) RXS， 假 设 R 可 装 人 内 存 。( 参见 习题 5.2.10 对 半 连 接 的 定义 ) 


* b) RD<S ,假设 $ 可 装 和 人 内 存 。 

o) RXS ,假设 R 可 装 入 内 存 。( 参见 习题 5.2.11 对 反 半 连接 的 定义 ) 
d RXS ,假设 5 可 装 入 内 存 。 

* Rm, S ,假设 R 可 装 人 内 存 。( 参见 习题 5.4.7 节 对 外 连接 的 定义 ) 
f) R 名 ,5$ ,假设 5 可 装 人 内 存 。 
g) Roan S$ ,假设 R 可 装 人 内 存 。 

h 召 外 R S ,假设 5 可 装 人 内存。 
i) ROS ,假设 R 可 装 入 内 存 。 


15.3 KERMA 


在 讨论 下 一 节 中 更 为 复杂 的 算法 之 前 ， 我 们 将 注意 力 转向 一 个 称 为 “ 钳 套 循环 ”连接 的 连 
接 操 作 符 算法 系列 。 这 些 算 法 ， 在 某 种 意义 来 说 需要 “一 趟 半 ”， 因 为 在 其 中 的 各 种 算法 中 ， 
两 个 操作 对 象 中 有 一 个 的 元 组 仅 读 取 一 次 ， 而 另 一 个 操作 对 象 将 重复 读 取 。 嵌 套 循环 连接 可 以 
用 于 任何 大 小 的 关系 ; 没有 必要 要 求 一 个 关系 必须 能 装 人 内 存 中 。 
15.3.1 MFA 

我 们 将 从 周 套 循环 系列 中 最 简单 的 形式 开始 ， 其 中 循环 包容 了 所 涉及 关系 的 各 个 元 组 。 在 
这 个 我 们 称 为 基于 元 组 的 说 套 循 环 连 接 算法 中 ， 将 计算 连接 

R(X, Y) SEZ) 

如 下 : 





~ 
S] 
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FOR each tuple s in S DO 
FOR each tuple r in R DO 
IF r and s join to make a tuple t THEN 
output t; 


如 果 我 们 不 注意 关系 R 和 5 的 块 的 缓冲 方法 ,那么 这 种 算法 需要 的 磁盘 W/O 可 能 多 达 T(R)T(5)。 
然而 ,在 很 多 情况 下 ， 这 种 算法 都 可 以 作 修 改 ， 使 代价 低 得 多 。 一 种 情况 是 当 我 们 可 以 使 用 R 
的 连接 属性 上 的 索引 来 查找 与 给 定 的 S$ 元 组 匹配 的 R 元 组 时 ， 这 样 的 匹配 不 必 读 取 整 个 关系 R。 
我 们 在 15.6.3 节 讨论 基于 索引 的 连接 。 第 二 种 改进 更 加 注重 R 和 5 的 元 组 在 各 个 块 中 的 分 布 方 式 ， 
并 且 在 执行 内 层 循 环 时 ， 要 尽 可 能 多 地 使 用 内 存 ， 以 减少 磁盘 VO 的 数目 。 我 们 将 在 15.3.3 节 考 
虑 基于 块 的 能 套 循 环 连 接 形式 。 

153.2 BTTANREAM EMAAR 

REGHEEN— Mae EAE BIER A FARR, Alb, BIRTH HEO.7.359'4 
看 到 的 那样 ， 某 些 情况 下 它 能 使 我 们 避免 将 中 间 关 系 存储 到 磁盘 上 。Rm SHEER AE AR 
和 8$ 的 夺 代 器 构造 起 来 ， 我 们 用 R Open ( ) 等 表示 这 些 迭 代 器 ， 就 像 15.1.6 节 中 那样 。 嵌 套 循 环 

连接 的 三 个 迭代 函数 的 代码 如 图 15-7 所 示 。 它 假定 关系 R 和 5 都 是 非 空 的 。 
Open() { 
R.Open(); 
$.Open(); 


s := $.GetNext(); 
} 


GetNext() { 
REPEAT { 
r := R.GetNext(); 
IF (r = NotFound) { /* R is exhausted for 
the current s */ 
R.Close(); 
s := S,GetNext(); 


IF (s = NotFound) RETURN NotFound; 
/* both R and S are exhausted */ 
R.Open(); 
r := R.GetNext(); 
} 


} 

UNTIL(r and s join); 

RETURN the join of r and 5; 
} 


Close() { 
R.Close(); 
S.Close(); - 

} 





图 15-7 基于 元 组 的 能 套 循环 连接 的 选 代 器 函数 
15.3.3 基于 块 的 嵌 套 循环 连接 算法 
如 果 按 以 下 步骤 计算 Rea S$， 我 们 可 以 改进 15.3.1 节 中 基于 元 组 的 吝 套 循环 连接 : 
1. 对 作为 操作 对 象 的 两 个 关系 的 访问 均 按 块 组 织 ， 并 且 
2. 使 用 尽 可 能 多 的 内 存 来 存储 属于 关系 8 的 元 组 ，3 是 外 层 循环 中 的 关系 。 
第 1 点 确保 了 当 在 内 层 循环 中 处 理 关系 R 的 元 组 时 ,我 们 可 以 用 尽 可 能 少 的 磁盘 1/0 来 读 取 RR。 
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第 2 点 使 我 们 不 是 将 读 到 的 R 的 每 一 个 元 组 与 5 的 一 个 元 组 连接 ， 而 是 与 能 装 人 内 存 的 尽 可 能 多 
的 3 元 组 连接 。 

像 15.2.3 节 中 一 样 ， 假 设 B(S) 友 BCR)， 但 是 现在 让 我 们 再 假定 B(S)>M; 也 就 是 说 ， 任 何 一 
个 关系 都 不 能 完整 地 装 人 内 存 。 我 们 重复 地 将 M - 1 个 块 读 到 内 存 缓冲 区 中 。 为 $ 在 内 存 中 的 元 
组 创建 一 个 查找 结构 ， 它 的 查找 关键 字 是 R 和 S$ 的 公共 属性 。 然 后 我 们 浏览 R 的 所 有 块 ， 依 次 读 
取 每 一 块 到 内 存 的 最 后 一 块 中 。 在 录 人 R 的 块 后 ， 将 块 中 所 有 元 组 与 $ 在 内 存 中 的 所 有 块 的 所 有 
元 组 进行 比较 。 对 于 那些 能 连接 的 元 组 ， 我 们 输出 连接 得 到 的 元 组 。 这 种 算法 的 般 套 循环 结构 
可 以 在 图 15-8 中 看 到 ， 在 那里 我 们 更 加 正式 地 描述 此 算法 。 


FOR each chunk of M-i blocks of S DO BEGIN 
read these blocks into main-memory buffers; 
organize their tuples into a search structure whose 
search key is the common attributes of R and S; 
FOR each block b of R DO BEGIN 
read b into main memory; 


FOR each tuple t of b DO BEGIN 
find the tuples of S in main memory that 
join with t; 
output the join of t with each of these tuples; 
END; 
END; 
END; | 





图 15-8 REVERIE 


图 15-8 的 程序 似乎 有 三 重 嵌 套 循环 。 然 而 ， 如 果 我 们 从 正确 的 抽象 层次 上 看 代码 ， 实 际 上 
仅 有 了 两 重 循环 。 第 一 重 循环 或 外 层 循环 是 对 $ 元 组 进行 的 ， 其 他 的 两 层 循环 对 有 R 的 元 组 进行 。 然 
而 ， 将 此 过 程 表达 为 两 层 循环 是 为 了 强调 我 们 访问 R 的 元 组 的 顺序 不 是 任意 的 。 相 反 ， 我们 需 
要 一 次 一 块 地 处 理 这 些 元 组 (第 二 层 循环 的 作用 )， 并 且 在 继续 移动 到 下 一 个 块 之 前 ， 我 们 要 处 
理 当前 块 内 的 所 有 元 组 (第 三 层 循环 的 作用 )。 

例 15.4 ”假定 BCR)=1000 且 B(S)=500， 并 令 M=101。 我 们 将 使 用 100 个 内 存 块 来 按照 大 小 为 
100 块 的 chunk 对 5 进行 缓冲 。 因 此 图 15-8 中 的 外 层 循环 需 迭 代 5 次 。 每 一 次 迭代 中 ， 用 100 个 磁 
盘 IO 读 取 $ 的 chunk， 并 且 在 第 二 层 循环 中 必须 用 1000 个 磁盘 IO 来 完整 地 读 取 R。 因 此 ， 磁 盘 
VO 的 总 数量 是 5500。 

注意 ， 如 果 我 们 颠倒 R 和 8 的 角色 ， 算 法 使 用 的 磁盘 IO 要 略 多 一些 。 我 们 将 在 外 层 循 环 中 
和 迭代 10 次 ， 并 且 每 一 次 迭代 使 用 600 次 磁盘 IO， 总 共 是 6000 次 。 一 般 来 说 ， 在 外 层 循环 中 使 用 
较 小 的 关系 略 有 优势 。 口 


图 15-8 中 的 算法 有 时 被 称 做 “内 套 的 块 连接 ”。 我 们 继续 将 其 简单 地 称 为 虹 套 特 环 连接 ， 
因为 它 是 嵌 套 循环 思想 在 实践 中 使 用 最 广泛 的 实现 形式 。 如 果 需 要 将 它 与 15.3.1 节 的 基于 元 组 
的 艇 套 循环 连接 区 别 开 ， 我 们 可 以 称 图 15-8 为 “基于 块 的 嵌 套 循环 连接 "。 

15.3.4 长 套 循环 连接 的 分 析 

例 15.4 的 分 析 可 以 重复 应 用 在 任何 B(R)、B(S) 和 M 上 。 假 设 $ 是 较 小 的 关系 ，chunk 数 或 外 
层 循环 的 迭代 次 数 是 BCSXVCM - D)。 每 一 次 迭代 时 ， 我 们 读 取 8 的 M - 1 个 块 和 R 的 B(R) 个 块 。 这 
样 ， 磁 盘 IO 的 数量 是 : 


B(S) 
Mi 





(M -1+ B(R)) 
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B(S)B(R) 

M-i 

设想 M、B(S) 和 BCR) 都 很 大 ， 但 M 是 其 中 最 小 的 ， 上 面 公式 的 一 个 近似 值 是 B(S)B(R)/M。 
也 就 是 说 ， 代 价 与 两 个 关系 的 大 小 的 乘积 再 除 以 可 用 内 存 容量 得 到 的 商 成 比例 。 当 两 个 关系 都 
很 大 时 ， 我 们 可 以 做 得 好 得 多 ， 尽 管 我 们 应 当 注 意 对 像 例 15.4 中 那样 的 相当 小 的 实例 来 说 ， 骸 
套 循 环 连 接 的 代价 并 不 比 一 趟 连接 的 代价 即 1500 次 磁盘 VO 大 多 少 。 实 际 上 ， 如 果 B(59)<M- 1， 
铬 套 循 环 连接 与 15.2.3 节 中 的 一 趟 连接 算法 是 一 样 的 。 

尽管 撕 套 循环 连接 通常 并 不 是 可 能 的 连接 算法 中 最 有 效 的 算法 ， 我 们 应 该 注意 在 一 些 早期 
的 关系 DBMS 中 ， 它 是 惟一 可 用 的 方法 。 即 使 今天 ， 某 些 情 况 下 在 更 有 效 的 连接 算法 中 ， 仍 然 
需要 把 它 作 为 一 个 子 程序 ， 例 如 ， 当 每 个 关系 中 的 大 量 元 组 在 连接 属性 上 具有 相同 的 值 时 。 关 
于 嵌 套 循环 是 必 不 可 少 的 一 个 例子 ， 参见 15.4.5 节 。 
15.3.5 迄今 为 止 的 算法 小 结 

图 15-9 中 给 出 了 15.2 节 和 15.3 节 中 我 们 已 经 讨论 过 的 算法 的 内 存 和 磁 扒 1/O 需 求 。y 和 5 的 
内 存 需 求实 际 上 比 给 出 的 更 复杂 ， 并 且 M = B 仅 是 一 个 大 致 的 近似 。 对 于 y, M 随 组 的 数量 增 
长 ;而 对 于 6，M 随 不 同 的 元 组 的 数量 增长 。 


操作 符 | KARENM | wao | 节 
1 B 15.2.1 

B B 15.2.2 

一 oo min(B(R), B(S)) | B(R) + B(S) | 15.2.3 
任意 M22 B(R)B(S)/M | 15.3.3 
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153.6 习题 
习题 15.3.1 给 出 基于 块 的 组 套 循环 连接 形式 的 三 个 迭代 器 函数 。 
* 习题 15.3.2 假设 B (R) = B(S) =10 000， 并 且 M = 1000。 计 算 嵌 套 循 环 连接 的 磁盘 VO 代价 。 
习题 15.3.3 ”对 于 习题 15.3.2 中 的 关系 ， 使 用 谋 套 循环 连接 算法 计算 Rm S 时 我 们 需要 什么 
FEN) ME, 磁盘 1/O 才 不 超过 : 
a)100 000 
! b)25 000 
! c)15 000 
习题 15.3.4 ”如 果 R 和 5 都 是 非 聚 徐 的 ， 似 乎 嵌 套 循环 连接 将 需要 大 约 TCR)T(S)/M 次 磁盘 1/O 
时 间 。 
a) 怎样 做 才能 明显 好 于 这 个 代价 ? 
b) 如 果 R 和 5 中 只 有 一 个 是 非 聚 簇 的 ， 你 怎样 执行 租 套 循环 连接 ? 考虑 两 种 情况 ， BK 
BFE AR FEAR RR EAS ABR) BO FE REY) 
习题 15.3.5 ”如 果 R 或 5 是 空 的 ， 图 15-7 的 迭代 器 将 无 法 正确 地 工作 。 重 写 这 些 函 数 ,使 得 即 
使 一 个 关系 为 空 或 两 个 关系 都 是 空 时 ， 它 们 仍 能 工作 。 


15.4 基于 排序 的 两 趟 算法 
现在 ,我 们 开始 学 习 在 关系 上 执行 关系 代数 操作 的 多 趟 算法 ， 这 里 的 关系 大 于 15.2 节 的 一 


趟 算法 能 够 处 理 的 关系 。 我 们 的 重点 在 两 趟 算法 上 ， 其 中 来 自 于 操作 对 象 关系 中 的 数据 被 读 到 
内 存 ， 以 某 种 方式 处 理 ， 并 再 次 写 回 到 磁盘 ， 然 后 重新 读 取 磁 盘 以 完成 操作 。 我 们 可 以 自然 地 
将 这 种 想法 扩展 到 任何 趟 数 ， 其 中 数据 被 多 次 读 取 到 内 存 。 然 而 , 我 们 将 重点 放 在 两 趟 算法 上 ， 
这 是 因为 : 

a) 即使 对 于 很 大 的 关系 ， 两 趟 通常 也 就 足够 了 。 

b) 将 两 趟 算法 推广 到 多 趟 并 不 难 ; 我 们 将 在 15.8 节 讨论 这 些 扩展 。 

本 节 中 ,我 们 考虑 把 排序 作为 实现 关系 操作 的 一 种 工具 。 基 本 思想 如 下 。 如 果 我 们 有 一 个 
较 大 的 关系 R， 其 B(R) 大 于 我 们 可 用 的 内 存 缓 冲 区 数 M， 那 么 ， 我 们 可 以 重复 地 : 

1. 将 R 的 M 个 块 读 到 内 存 。 

2. 使 用 一 种 有 效 的 排序 算法 ,在 内 存 中 对 这 MM 个 块 排序 。 这 样 的 算法 将 占用 的 处 理 器 时 间 
只 比 内 存 中 的 元 组 数 的 线性 函数 略 大 一 点 ， 因 此 我 们 预计 排序 的 时 间 不 会 超过 第 (1) 步 所 需 的 
磁盘 VO 时 间 。 | 

3. 将 排 好 序 的 列表 写 入 磁盘 的 M 个 块 中 。 我 们 将 有 R 的 一 个 排序 子 表 来 指 代 这 些 块 的 内 容 。 

我 们 将 要 讨论 的 所 有 算法 接 下 来 在 第 二 趟 中 以 通过 某 种 方式 “归并 ”排序 子 表 ， 以 执行 所 
期 望 的 操作 。 
15.4.1 利用 排序 消除 重复 

为 了 用 两 趟 执行 6 (R) 操 作 ， 我 们 按 上 面 的 描述 在 子 表 中 将 R 的 元 组 排序 。 然 后 ， 像 在 
11.4.4 节 的 多 路 归并 排序 中 所 做 的 那样 ， 我 们 利用 可 
得 到 的 内 存 来 容纳 来 自 每 一 个 排序 子 表 的 一 个 块 。 
然而 ， 我 们 并 不 将 来 自 这 些 子 表 的 元 组 排序 ， 而 是 
不 断 地 复制 元 组 到 输出 ， 并 忽略 与 它 相同 的 所 有 元 
组 。 过 程 如 图 15-10 所 示 。 

更 准确 地 讲 ， 我 们 看 来 自 每 一 块 的 第 一 个 未 考 
虑 的 元 组 ,并 且 按 排序 的 次 序 在 它们 中 间 找 到 第 一 
个 元 组 ， 例 如 t。 我 们 在 输出 中 生成 1 的 一 个 副本 ， 
而 且 从 不 同 输入 块 的 前 端 删 除 所 有 的 副本 。 如 果 一 
个 块 已 经 室 了 ， 我 们 就 在 它 的 缓冲 区 中 装 人 同一 子 
ten 而 且 如 果 那 个 块 中 有 +， 我 们 也 要 将 eye 同样 的 1 个 缓冲 区 

例 15.5 为 简明 起 见 ， 我 们 假设 元 组 是 整数 ， 而 。 ” 图 15-10 消除 重复 值 的 一 个 两 越 算法 
且 一 个 块 中 仅 有 两 个 元 组 。 我 们 还 设 M = 3; 即 内 存 中 有 三 个 块 。 关 系 R 包 含 17 个 元 组 : 

2, 5, 2, 1, 2, 2, 4, 5, 4, 3, 4, 2, 1, 5, 2, 1, 3 


我 们 读 取 前 6 个 元 组 到 内 存 中 的 三 个 块 中 ， 对 它们 排序 ， 并 且 将 它们 作为 子 表 R 写 出 。 
同样 ， 我 们 接着 读 进 元 组 7~12， 排 序 并 作为 子 表 Rs 写 出 。 最 后 的 5 个 元 组 同样 被 排序 并 成 为 
FRR. 

第 二 趟 开始 时 ， 我 们 可 以 把 三 个 子 表 中 的 每 一 个 的 第 一 个 块 放 入 内存 中 。 现 在 的 情况 是 : 


子 表 ”内 存 中 磁盘 上 剩 下 的 
Ri: «12 22, 25 
R: 23 44, 45 
R: 11 23, 5 
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观察 内 存 中 三 个 块 的 第 一 个 元 组 ， 我 们 发 现 1 是 排序 后 的 第 一 个 元 组 。 因 此 ， 我 们 在 输出 
中 产生 1 的 一 个 副本 ， 并 且 从 内 存 的 块 中 删除 所 有 的 1。 当 我 们 这 样 做 后 ， 子 表 R3 的 块 就 处 理 完 
了 ， 所 以 我 们 装 人 该 子 表 中 的 下 一 个 块 ， 它 具有 元 组 2 和 3。 如 果 在 这 个 块 上 还 有 1 的 副本 ,我 
们 就 将 它们 去 掉 。 现 在 的 情况 是 : 


FR 内存 中 磁盘 上 剩 下 的 
Ry: 2 22,25 
Rp: 23 44, 45 
Rs: 23 5 
现在 ,2 是 表 的 前 部 最 小 的 元 组 ， 而 且 事 实 上 它 恰巧 出 现在 每 一 个 表 中 。 我 们 将 2 的 一 个 副 
本 写 到 输出 ， 并 从 内 存 块 中 去 除 2 的 副本 。 子 表 R1 的 块 处 理 完毕 ， 并 且 该 子 表 中 的 下 一 个 块 被 
装 进 内 存 。 此 块 中 有 2 的 副本 ， 于 是 去 除 它们 ， 这 样 就 再 次 处 理 完了 R, 的 块 。 将 该 子 表 的 第 三 
个 块 装 进 内 存 ， 并 且 删 除 其 中 的 2。 现 在 的 情况 是 ; 
THR ”内 存 中 磁盘 上 剩 下 的 
Ri: 5 
Ro: 3 44, 45 
R3: 3 5 
现在 ，3 被 选 作 最 小 的 元 组 ，3 的 一 个 副本 写 到 输出 ， 并 且 R; 和 的 块 都 已 处 理 完 ， 并 用 磁 
盘 上 的 块 替 换 ， 状 态 变 为 ; 








TR ATP 磁盘 上 剩 下 的 
Ri: 5 
Rz: 44 45 
Rz: 5 
为 结束 这 个 例子 ，4 是 下 一 个 要 选 定 的 ， 这 将 消耗 掉 子 表 R, 的 大 部 分 。 在 最 后 一 步 ， 每 一 
个 表 碰 巧 都 包含 一 个 5， 将 它 输出 一 次 并 从 输入 缓冲 区 中 删除 。 口 


和 平常 一 样 忽 略 对 输出 的 处 理 ， 执 行 这 个 算法 的 磁盘 IO 数 为 ， 

1. BR) 用 于 在 创建 排序 子 表 时 读 尺 的 每 一 个 块 。 

2. B(R) 用 于 将 各 排序 子 表 写 到 磁盘 。 

3. B(R) 用 于 在 适当 的 时 候 从 子 表 中 读 每 一 个 块 。 

因此 ， 相 对 于 15.2.2 节 一 趟 算法 的 代价 BCR) ， 这 个 算法 总 的 代价 是 3B(R)。 

兄 一 方面 ， 我 们 可 以 用 两 趟 算法 处 理 比 一 趟 算法 所 能 处 理 的 文件 大 得 多 的 文件 。 假 设 内 存 
中 有 M 个 抉 可 用 ， 我 们 创建 若干 大 小 为 M 块 的 排序 子 表 。 在 第 二 趟 中 ， 我 们 需要 内 存 中 有 每 个 
子 表 的 一 个 块 ， 所 以 子 表 不 能 超过 M 个 ， 每 一 个 有 M 块 。 因 此 ， 与 一 趟 算法 的 B<M 相 比 ， 要 使 
两 趟 算法 可 行 ， 需 要 使 B<M?。 换 言 之 ， 用 两 趟 算法 计算 &R) 仅 需要 VBR) 个 内 存 块 ， 而 不 是 
B(R) 个 内 存 块 。 
15.4.2 利用 排序 进行 分 组 和 聚集 

XLR) 的 两 趟 算法 与 15.4.1 节 中 SR) 的 算法 非常 相似 。 我 们 将 它 概括 如 下 ; 

1. 将 R 的 元 组 读 到 内 存 中 ， 每 一 次 读 M 块 。 用 的 分 组 属性 作为 排序 关键 字 ， 对 每 MW 块 排序 。 
将 每 一 个 排 好 序 的 子 表 写 到 磁盘 。 

2. 为 每 一 个 子 表 使 用 一 个 主 存 缓冲 区 ， 并 且 首 先 将 每 一 个 子 表 的 第 一 个 块 装 人 其 缓冲 区 。 

3. 在 缓冲 区 可 以 获得 的 第 一 个 元 组 中 反复 查找 排序 关键 字 ( 分 组 属性 ) 的 最 小 值 。 这 个 最 
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小 值 v 成 为 下 一 分 组 ， 我 们 为 它 : 

a) 准备 在 这 个 分 组 的 列表 上 计算 所 有 的 聚集 。 就 像 15.2.2 节 中 那样 ， 使 用 计数 与 求 和 
来 代替 求 平均 。 

b) 检查 每 个 排序 关键 字 为 v 的 元 组 ， 并 且 累 计 所 需 聚 集 。 

c) 如 果 一 个 缓冲 区 空 了 ， 则 用 相同 的 子 表 中 的 下 一 个 块 替 换 它 。 

当 不 再 有 排序 关键 字 为 v 的 元 组 时 ,输出 一 个 由 ZL 的 分 组 属性 和 对 应 的 我 们 已 经 为 这 个 组 计 
算出 的 聚集 值 构成 的 元 组 。 

正如 5 算法 那样 ，Y 的 这 种 两 趟 算法 使 用 3B (R) 次 磁盘 WO， 而 且 只 要 B (RSM 就 可 以 正 
常 工作 。 

15.4.3 基于 排序 的 并 算法 

当 需 要 包 的 并 时 ，15.2.3 节 中 简单 地 复制 两 个 关系 的 一 趟 算法 就 可 以 。 这 一 算法 的 正常 工 
作 与 操作 对 象 的 大 小 无 关 ， 因 而 我 们 不 必 考 虑 Us 的 两 趟 算法 。 然 而 ， 只 有 当 至 少 一 个 关系 小 
于 可 用 的 内 存 时 ，Us 的 一 趟 算法 才 起 作用 ， 因 此 ， 我 们 应 该 考虑 集合 并 操作 的 两 趟 算法 。 正 
如 我 们 将 要 在 15.4.4 节 看 到 的 那样 ， 我 们 提出 的 方法 对 于 集合 和 包 的 交 和 差 也 都 适合 。 为 计算 
RUS, 我们 做 以 下 工作 ; 

1. 重复 地 将 R 的 M 块 装 和 内存 中 ， 对 它们 的 元 组 排序 ， 并 且 将 产生 的 排序 子 表 写 回 磁盘 。 

2. 为 了 创建 关系 8 的 排序 子 表 ， 对 8 做 相同 的 工作 。 

3. 为 R 和 5 的 每 个 子 表 使 用 一 个 内 存 缓冲 区 ， 用 对 应 子 表 的 第 一 块 初始 化 各 缓冲 区 。 

4. 重复 地 在 所 有 缓冲 区 中 查找 剩余 的 第 一 个 元 组 :。 将 ! 复 制 到 输出 ， 并 且 从 缓冲 区 中 删除 / 
的 所 有 副本 (如 果 R 和 5 都 是 集合 ， 则 至 多 有 两 个 副本 )。 如 果 一 个 缓冲 区 变 空 了 ， 则 从 它 的 子 表 
中 重新 调 人 下 一 个 块 。 

我 们 看 到 ，R 和 S 的 每 一 个 元 组 被 两 次 读 进 内 存 ， 一 次 是 当 子 表 创 建 时 ， 第 二 次 是 作为 子 
表 的 一 部 分 。 元 组 还 写 回 磁盘 一 次 ， 作 为 新 建 子 表 的 一 部 分 。 因 此 ， 琵 盘 IO 的 代价 是 3(B(R) + 
B(S))o 

因为 对 每 一 个 子 表 ， 我 们 需要 一 个 缓冲 区 ， 所 以 只 要 两 个 关系 的 子 表 总 数 不 超 过 M， 算 法 
就 能 工作 。 既 然 每 一 个 子 表 长 度 是 MIR, 那么 两 个 关系 的 大 小 不 能 超过 M? ; 即 B (R) + B (S) 
<M?, 

15.4.4 基于 排序 的 交 和 差 算 法 

无 论 是 要 计算 集合 形式 还 是 包 形式 ， 除 了 我 们 在 处 理 排序 子 表 前 部 的 元 组 的 副本 时 有 区 
别 以 外 ， 算 法 基本 上 与 15.4.3 节 中 的 算法 相同 。 通 常 ， 我 们 为 作为 操作 对 象 的 关系 R 和 5 各 自 创 
建 若 二 大 小 为 M 块 的 排序 子 表 。 我 们 为 每 一 个 子 表 使 用 一 个 内 存 缓冲 区 ， 并 将 每 个 子 表 初 始 化 
为 相应 子 表 的 第 一 个 块 。 

接 下 来 ， 我 们 不 断 考 虑 所 有 缓冲 区 内 剩余 的 元 组 中 最 小 的 元 组 :。 我 们 统计 R 的 元 组 中 与 由 
同 的 元 组 数 ， 并 且 也 统计 5 的 元 组 中 与 :相同 的 元 组 数 。 这 需要 我 们 为 当前 缓 促 块 已 处 理 完 的 子 
表 重 新 装载 缓冲 区 。 下 面 说 明 我 们 怎样 判定 是 否 输出 ， 以 及 如 果 输 出 时 ， 应 该 输出 多 少 次 ; 

。 如 果 操 作 是 集合 交 ， 并 且 如 果 t 在 R 和 5 中 都 出 现 ， 就 输出 t。 

* 如 果 操 作 是 包 交 ， 则 输出 :的 次 数 是 它 在 R 和 5 中 出 现 的 最 小 次 数 。 注 意 ， 如 果 两 个 计数 中 

有 一 个 为 0， 就 不 输出 1; 也 就 是 说 ， 当 :在 一 个 或 两 个 关系 中 未 出 现时 就 不 输出 它 。 
* 如 果 操 作 是 集合 差 ，R - 8， 当 且 仅 当 : 出 现在 R 中 但 不 在 5S 中 时 输出 t。 
"如果 操作 是 包 差 , R-S, 输出! 的 次 数 是 在 R 中 出 现 的 次 数 减 去 在 S 中 出 现 的 次 数 。 当 然 ， 
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如 果 t 在 S$ 中 出 现 的 次 数 至 少 等 于 在 R 中 的 出 现 次 数 ， 那 么 根本 就 不 要 输出 1。 

例 15.6 让 我 们 做 和 例 15.5 同 样 的 假设 : M = 3, 元 组 是 整数 ， 并 且 一 个 块 能 容纳 两 个 元 组 。 
数据 也 几乎 和 那个 例子 中 的 相同 。 然 而 ， 这 里 需要 两 个 操作 对 象 ， 所 以 我 们 将 假设 R 有 12 个 元 
组 , S 有 5 个 元 组 。 因 为 内 存 可 以 容纳 6 个 元 组 ,第 一 趋 中 得 到 R 的 两 个 子 表 ， 我 们 称 之 为 RI 和 RR， 
而 8 仅 有 一 个 排序 子 表 ， 我 们 称 之 为 9,” 。( 在 类 似 于 例 15.5 中 数据 的 未 排序 关系 上 ) 创建 子 表 
之 后 ， 状 态 为 : 


FR ”内 存 中 BALF FAY 
Ri: 12 22, 25 
Rz: 23 44, 45 
Si: 11 23, 5 


假设 我 们 想 计算 包 的 差 R- 中。 我 们 发 现在 内 存 缓冲 区 中 最 小 的 元 组 是 1， 所 以 在 R 的 子 表 
和 8 的 子 表 中 统计 1 的 数目 。 我 们 发 现 1 在 R 中 出 现 1 次 ， 在 8 中 出 现 两 次 。 因 为 1 在 R 中 出 现 的 次 


数 不 比 在 $S 中 的 多 ， 我 们 不 输出 元 组 1 的 任何 副本 。 因 为 计算 1 的 数目 后 8 的 第 一 个 块 就 空 了 ， 
我 们 装 和 人 8 的 下 一 个 块 ， 状 态 变 为 ; 


子 表 内 存 中 磁盘 上 剩 下 的 
Ri: 2 22,25 
Rp: 23 44, 45 

Si: 23 5 


现在 我 们 发 现 2 是 剩 下 的 元 组 中 最 小 的 ， 所 以 我 们 统计 它 在 R 中 出 现 的 次 数 ， 为 次， 并且 
我 们 统计 它 在 8 中 出 现 的 次 数 ， 为 1 次 。 因 此 我 们 将 2 输出 4 次 。 当 我 们 执行 统计 时 ， 必 须 重新 装 
载 RI 的 缓冲 区 两 次 ， 这 使 状态 变 为 : 
子 表 内 存 中 磁盘 上 剩 下 的 
Ry: 5 
Ro: 3 44,45 
' Si: 3 5 
接着 ， 我 们 考虑 元 组 3， 而 且 发 现 它 在 R 中 出 现 1 次 并 在 8 中 出 现 1 次 。 因 此 ， 我 们 不 输出 3， 
并 且 从 缓冲 区 中 删除 它 的 副本 ， 状 态 变 为 ; 


子 表 内 存 中 磁盘 上 剩 下 的 








Ri: 5 
Ro: 44 45 
Si: 5 


元 组 4 在 R 中 出 现 3 次 并 且 在 8 中 根本 没有 出 现 ， 所 以 我 们 输出 4 的 三 个 副本 。 最 后 ，5 在 R 
中 出 现 两 次 并 且 在 S 中 出 现 1 次 ， 所 以 我 们 将 5 输出 1 次 。 完整 的 输出 为 ; 2， 2， 2， 2， 4， 4， 
4, 5. o 


这 一 类 算法 的 分 析 和 15.4.3 节 中 对 集合 并 算法 所 做 分 析 相 同 : 
。3(B(R)+B(5)) 次 磁盘 IO。 
* 为 使 算法 能 工作 ， 近 似 地 要 求 B(R)+B(S) <M? 
15.4.5 基于 排序 的 一 个 简单 的 连接 算法 
将 排序 用 于 连接 大 的 关系 的 方法 有 多 种 。 在 讨论 连接 算法 之 前 ,我 们 来 看 一 个 在 计算 连接 


Oo 由 于 5$ 能 被 主 存 所 容纳 ， 我 们 实际 上 可 以 使 用 15.2.3 节 中 的 一 趟 算法 ， 但 是 为 了 说 明 问 题 我 们 将 使 用 两 趟 方式 。 
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时 可 能 出 现 的 问题 ， 但 这 个 问题 不 是 迄今 为 止 考 虑 过 的 二 元 操作 的 问题 。 在 计算 连接 时 ， 两 个 
关系 在 连接 属性 上 具有 相同 的 值 因 而 需要 同时 放 和 内存 中 的 元 组 ， 可 能 超过 内 存 所 能 容纳 的 数 
量 。 极 端的 例子 是 当 连 接 属性 仅 有 一 个 值 时 ， 这 时 一 个 关系 中 的 每 个 元 组 与 另 一 关系 的 每 个 元 
组 都 能 连接 。 这 种 情况 下 ， 除 了 对 在 连接 属性 上 值 相 等 的 两 个 元 组 集合 进行 嵌 套 循环 连接 外 ， 
就 真 的 没有 其 他 选择 了 。 

为 了 避免 面 对 这 种 情形 ， 我 们 可 以 尽量 减少 为 算法 中 其 他 方面 使 用 的 内 存 ， 因 而 可 以 用 大 
量 缓冲 区 保存 具有 给 定 连 接 属性 值 的 元 组 。 本 节 中 我 们 将 要 讨论 一 个 算法 ， 它 可 以 为 具有 共同 
值 的 元 组 连接 获取 最 大 量 的 可 用 缓冲 区 。 在 15.4.7 节 中 ， 我 们 考虑 另 一 个 使 用 较 少 的 磁盘 IO 并 
基于 排序 的 算法 ， 但 该 算法 在 大 量 的 元 组 在 连接 属性 上 具有 共同 的 值 时 可 能 会 出 现 问题 。 

已 知 将 要 连接 的 关系 RCC, 刀 和 S(Z.Z) ， 并 且 已 知 有 M 块 内 存 用 作 缓 冲 区 ， 我 们 做 下 面 的 事 
情 : 

1. 用 7 作为 排序 关键 字 ， 使 用 两 阶段 、 多 路 归并 排序 对 R 进 行 排序 。 

2. 类 似 地 对 8 做 排序 。 

3. 归并 排 好 序 的 R 和 3$。 我 们 通常 仅 用 两 个 缓冲 区 ， 一 个 给 R 的 当前 块 ， 另 一 个 给 8 的 当前 
块 。 重 复 执行 以 下 步 又 : 

(a) 在 当前 R 和 5 的 天 的 前 端 查找 连接 属性 7 的 最 小 值 y。 

(b) 如 果 y 在 另 一 个 关系 的 前 部 没有 出 现 ， 那 么 删除 具有 排序 关键 字 y 的 元 组 。 

(c) 否则 ， 找 出 两 个 关系 中 具有 排序 关键 字 y 的 所 有 元 组 。 如 果 需 要 ， 从 排序 的 R 和 /或 5 中 

读 取 块 ， 直 到 我 们 确定 每 一 个 关系 中 都 不 再 有 y 的 副本 。 最 多 可 以 用 M 个 缓冲 区 来 做 这 
件 事 情 。 ae 

(d) 输出 通过 连接 RkR 和 5 中 具有 共同 的 7 值 y 的 元 组 所 能 形成 的 所 有 元 组 。 

(e) 如 果 一 个 关系 在 内 存 中 已 没有 未 考虑 的 元 组 ， 就 重新 装载 为 那个 关系 而 设 的 缓冲 区 。 

例 15.7 让 我 们 考虑 例 15.4 的 关系 R 和 5。 回 想 一 下 ,这 两 个 关系 分 别 占 用 1000 个 块 和 500 
MR, 并 且 有 M=101 个 内 存 缓冲 区 。 当 我 们 在 一 个 关系 上 使 用 两 阶段 归并 排序 时 ， 对 每 一 个 块 
我 们 使 用 4 次 磁盘 VO， 每 个 阶段 有 两 次 。 那 么 ， 对 R 和 5 排序 我 们 要 使 用 4(B(R)+B(9) 次 磁盘 LO， 
即 6000 次 磁盘 IO。 

当归 并 R 和 5 以 得 到 连接 的 元 组 时 ， 我 们 用 另外 的 1500 次 磁盘 1/O 来 第 五 次 读 取 R 和 5 每 一 个 
块 。 这 个 归并 中 ， 我 们 通常 仅 需 要 101 个 内 存 块 中 的 两 个 。 然 而 ， 如 果 需 要 ， 我 们 可 以 使 用 所 
有 101 个 块 来 容纳 具有 公共 的 7 值 y 的 R 和 5S 的 元 组 。 因 此 ， 只 要 对 于 任意 的 y，R 和 5 中 7 值 为 y 的 
元 组 占用 的 空间 不 超过 101 块 ， 这 就 足够 了 。 

注意 ， 这 个 算法 执行 的 磁盘 VO 总 数量 是 7500， 而 例 15.4 中 贝 套 循环 连接 的 磁盘 1/O 数 量 是 
5500。 然 而 ， 嵌 套 循 环 连接 是 一 个 固有 的 二 次 算法 ， 占 用 的 时 间 与 B(R)B(5) 成 比例 ， 而 排序 连 
接 具 有 线性 的 MO 代价 ， 占 用 的 时 间 与 HR)+B(S) 成 比例 。 只 有 常数 因子 以 及 较 小 的 示例 关系 (每 
一 个 关系 只 不 过 比 一 个 能 完全 装 人 分配 的 缓冲 区 中 的 关系 大 5 或 10 倍 ), 嵌 套 循环 连接 才 更 可 取 。 
此 外 ,在 15.4.7 节 中 我 们 将 看 到 ， 在 3(B(R)+B(9)) 次 磁盘 IO 内 执行 一 个 排序 连接 通常 是 可 能 的 ， 
在 这 个 例子 中 将 是 45300， 它 低 于 嵌 套 循环 连接 的 代价 。 口 


如 果 具 有 某 个 了 值 y 的 元 组 数量 不 能 被 M 个 缓冲 所 容纳 ， 那 么 我 们 需要 修改 上 面 的 算法 。 

1. 如 果 有 一 个 关系 (比方 说 R ) 中 具有 了 Y 值 y 的 元 组 能 完全 装 人 M - 1 个 缓冲 区 中 ， 那 么 将 R 的 
这 些 块 装 人 到 缓冲 区 , 并 且 一 次 一 个 地 将 8 的 块 中 其 值 是 的 元 组 读 到 剩余 的 缓冲 区 中 。 实际 上 ， 
我 们 是 只 在 具有 Y 值 > 的 元 组 上 做 15.2.3 节 的 一 趟 连接 。 
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2. 如 果 两 个 关系 中 具有 Y 值 y 的 元 组 都 不 够 小 ， 都 不 能 完全 装 入 M-1 个 缓冲 区 中 ,那么 ,使 
用 M 个 缓冲 区 ， 在 两 个 关系 中 具有 Y 值 y 的 元 组 上 执行 说 套 循环 连接 。 

TER, 每 一 种 情况 都 可 能 需要 从 一 个 关系 读 取 块 ,然后 又 忽略 它们 ， 后 来 又 需要 读 这 些 块 。 
例如 ， 在 情况 1 中 ， 我 们 可 能 首先 读 取 $ 的 块 中 具有 了 值 y 的 元 组 ， 并 且 发 现 这 样 的 元 组 太 多 了 以 
至 于 不 能 全 部 装 人 M - 1 个 缓冲 区 。 然 而 ， 如 果 我 们 接 下 来 读 取 R 中 具有 Y 值 y 的 元 组 ,我们 发 现 
它们 确实 能 装 人 M - 1 个 缓冲 区 中 。 

15.4.6 简单 排序 连接 的 分 析 

就 像 我 们 在 例 15.7 中 注意 到 的 那样 ， 对 于 操作 对 象 的 每 一 个 块 ， 我 们 的 算法 执行 5 次 磁盘 
LIUO。 如 果 具 有 一 个 公共 的 Y 值 y 的 元 组 非常 多 ， 在 这 些 元 组 上 我 们 需要 做 一 种 特殊 的 连接 ， 这 
是 一 种 例外 情况 。 在 这 种 情况 下 ， 额 外 的 磁盘 UVO 数 量 依赖 于 是 一 个 关系 中 还 是 两 个 关系 中 具 
有 公共 的 7 值 y 的 元 组 太 多 ， 因 而 单 是 这 样 的 元 组 需要 的 缓冲 区 数 就 超过 MM - 1。 这 里 ， 我 们 将 
不 再 深入 地 研究 所 有 的 细节 ; 习题 中 包括 了 一 些 例子 ,需要 你 去 解决 。 

我 们 还 需要 考虑 为 了 使 简单 排序 连接 能 够 运行 ，M 需 要 多 大 。 主 要 的 限制 在 于 我 们 必须 能 
够 在 R 和 S 上 执行 两 阶段 、 多 路 归并 排序 。 就 像 我 们 在 11.4.4 节 看 到 的 那样 ， 为 执行 这 些 排 序 ， 
我 们 需要 BRR) 和 B(5)< M2?。 一 旦 排序 完成 ， 我 们 将 不 再 会 有 缓冲 区 不 够 的 问题 。 尽 管 像 前 
面 讨论 的 那样 ， 如 果 具 有 一 个 公共 的 7 值 y 的 所 有 元 组 不 能 全 部 装 人 M 个 缓冲 区 中 ， 我 们 可 能 不 
得 不 偏离 简单 归并 。 总 之 ， 假 设 不 必要 发 生 这 样 的 偏离 是 不 必要 的 : 

。 简 单 排序 连接 使 用 5(B(R)+B(3)) 次 磁盘 1/O。 

。 为 了 能 工作 ， 它 要 求 B(R)< MP 有 LB(S) <M, 

15.4.7 一 种 更 有 效 的 基于 排序 的 连接 

如 果 不 必 担 心 具 有 连接 属性 公共 值 的 元 组 太 多 ， 那 么 我 们 可 以 将 排序 的 第 二 阶段 和 连接 本 
身 合并 ， 这 样 对 每 个 块 而 言 可 以 节约 两 次 磁盘 UVO。 我 们 称 这 个 算法 为 排序 连接 ， 还 有 一 些 其 
他 的 名 字 如 “归并 连接 ” 和 “排序 归并 连接 ”也 指 这 个 算法 。 为 了 用 M 个 缓冲 区 计算 R(X,P) oa 
S(Y,Z), RM: 

1. 用 7 作为 排序 关键 字 ， 为 R 和 5S 创建 大 小 为 M 的 排序 子 表 。 

2. 将 每 一 个 子 表 的 第 一 块 调 进 缓冲 区 ; 我 们 假设 总 共 不 超过 M 个 子 表 。 

3. 重复 地 在 所 有 子 表 的 第 一 个 可 以 得 到 的 元 组 中 查找 最 小 的 了 值 y。 识 别 两 个 关系 中 具有 7 
值 y 的 所 有 元 组 。 如 果子 表 数 少 于 M， 可 能 使 用 M 个 缓冲 区 中 的 一 部 分 来 容纳 这 些 元 组 。 输 出 R 
和 S$ 中 具有 此 公共 7 值 的 所 有 元 组 的 连接 。 如 果 一 个 子 表 的 缓冲 区 处 理 完毕 ， 则 重新 将 磁盘 上 的 
块 装 入 其 中 。 

例 15.8 ”让 我 们 再 次 考虑 例 15.4 中 的 问题 使 用 101 个 缓冲 区 连接 关系 R 和 5S， 它们 分 别 有 
1000 块 和 500 块 。 我 们 将 R 分 成 10 个 子 表 ， 将 8 分 成 5 个 子 表 ， 每 一 个 子 表 长 度 为 100， 并 且 对 它 
们 排序 ” 。 然 后 我 们 用 15 个 缓冲 区 来 容纳 各 子 表 的 当前 块 。 如 果 我 们 面临 着 许多 元 组 都 有 某 个 
圈定 7 值 的 情况 ， 可 以 用 剩 下 的 86 个 缓冲 区 来 存储 这 些 元 组 ; 但是， 如 果 元 组 比 这 还 多 ， 则 我 
们 必须 使 用 一 种 如 15.4.5 节 最 后 所 讨论 的 那样 的 特殊 算法 。 

假 没 不 需要 为 具有 相同 Y 值 的 大 量 元 组 的 集合 而 修改 算法 ， 则 我 们 为 数据 的 每 个 块 执 行 三 
次 磁盘 IO。 其 中 两 次 是 为 了 创建 排序 的 子 表 。 然 后 ， 在 多 路 归并 过 程 中 ， 每 一 个 排序 子 表 的 


日 从 技术 上 来 说 ， 我 们 可 以 使 每 个 子 表 的 长 度 为 101 块 ， 并 且 R 的 最 后 一 个 子 表 有 91 艾 ，5 的 最 后 一 个 子 表 有 96 鼠 ， 
但 代价 完全 相同 。 
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每 一 块 被 再 次 读 取 到 内 存 中 。 因 此 ， 总 的 磁盘 IO 数 是 4500。 口 


这 个 排序 连接 算法 在 能 够 使 用 时 比 15.4.5 节 中 的 算法 更 有 效 。 就 像 我 们 在 例 15.8 中 所 看 到 
的 那样 ， 磁 盘 1/O 的 数目 是 3(B(R)+B(5))。 我 们 可 以 在 几乎 和 前 面 算法 中 一 样 多 的 数据 上 执行 这 
个 算法 。 排 序 子 表 的 长 度 是 WM 抉 ， 而 且 两 个 关系 总 的 子 表 数 至 多 是 M。 因 此 ，B(R)+B(S) SMX 
足够 了 。 

我 们 可 能 想 知道 ， 当 有 很 多 元 组 具有 公共 的 Y 值 时 ， 我 们 是 否 可 以 避免 因此 产生 的 问题 。 
一 些 重要 的 考虑 是 : 

1. 有 时 ， 我 们 可 以 确定 问题 不 会 发 生 。 例 如 ， 如 果 了 7 是 R 的 一 个 关键 字 ， 那 么 ， 一 个 给 定 
的 Y 值 y 在 R 的 子 表 的 所 有 块 中 仅 出 现 一 次 。 当 轮 到 y 时 ， 我 们 可 以 让 有 R 的 相应 元 组 保持 不 动 ， 并 
且 将 它 和 $s 中 所 有 匹配 的 元 组 连接 。 如 果 这 一 过 程 中 $ 子 表 的 块 处 理 完毕 ， 无论 5 中 有 多 少 元 组 
有 7Y 值 y， 这 些 子 表 的 缓冲 区 都 可 以 再 调 人 下 一 个 块 ， 而 不 需要 额外 的 空间 。 当 然 ， 如 果 Y 是 5 
的 一 个 关键 字 而 不 是 R 的 ， 上 述 过 程 也 同样 适用 ， 只 不 过 将 R 和 5 交换 一 下 。 

2. 如 果 B(R)+B(5) 远 远 小 于 M?， 就 像 在 例 15.8 中 指出 的 那样 ， 我 们 将 有 很 多 未 用 的 缓冲 区 ， 
可 以 用 来 存储 具有 某 个 公共 的 了 值 的 元 组 。 

3. 如 果 其 他 的 所 有 情况 都 不 满足 ， 我 们 可 以 只 在 具有 某 个 公共 Y 值 的 元 组 上 使 用 嵌 套 循环 
连接 ， 这 样 做 将 使 用 额外 的 磁盘 IO ， 但 能 使 工作 顺利 完成 。 这 一 可 选 方案 将 在 15.4.5 节 讨论 。 
15.4.8 基于 排序 的 算法 小 结 

图 15-11 中 的 表格 是 对 15.4 节 中 我 们 讨论 过 的 算法 的 分 析 。 就 像 在 15.4.5 节 和 15.4.7 节 讨论 
过 的 那样 ， 如 果 我 们 连接 的 两 个 关系 有 许多 元 组 在 连接 属性 上 有 相同 的 值 ， 那 么 有 必要 对 时 间 
和 内 存 需 求 进行 修改 。 














wre | 大 至 需要 的 4 | mao | + 
7,6 VB 3B 15.4.1, 15.4.2 
u, N, — VB(R) + B6) 3(B(R) + B(S)) | 15.4.3, 15.4.4 
ba max(B(R), B(S)) | 5(B(R) + B(S)) | 15.4.5 
ba B(R) + B(S) | 3(B(R) + B(S)) | 15.4.7 





图 15-11 基于 排序 算法 的 内 存 和 磁盘 IO 需求 


15.4.9 习题 
习题 15.4.1 使 用 例 15.5 中 的 假设 (每 个 块 两 个 元 组 ， 等 等 )， 
a) 将 序列 0, 1, 2, 3, 4 重复 六 遍 ， 形 成 一 个 具有 30 个 单 属 性 元 组 的 序列 ， 说 明 在 这 个 序 
列 上 执行 消除 重复 的 两 趟 算法 的 行为 。 
b) 说 明 计算 关系 %，AVG(b) (R) 的 两 趟 分 组 算法 的 行为 。 关 系 Re, 人 包括 ft 这 30 个 元 
组 ,元 组 i 以 蛮 5 的 结果 作为 它 的 分 组 成 分 a， 并 以 i 作为 它 的 第 二 个 成 分 b。 
习题 15.4.2 使 用 本 节 中 描述 的 算法 ， 为 下 面 的 每 个 操作 编写 迭代 器 。 
* a) 消除 重复 (6) 。 
b) 分 组 (%) 。 
* co) 集合 交 。 
d) 包 差 。 
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e) 自然 连接 。 


习题 15.4.3 如 果 B(R)=B(S)=10 000， 并 且 M=1000， 以 下 情况 中 磁盘 LO 的 需求 是 多 少 ; 
a) 集合 并 。 


* b) 简单 的 排序 连接 。 

c) 15.4.7 节 中 更 有 效 的 排序 连接 。 
习题 15.4.4 ”假设 本 节 中 所 描述 算法 的 第 二 趟 不 需要 所 有 的 M 个 缓冲 区 ， 因 为 子 表 数 小 于 
M。 我 们 怎样 通过 使 用 额外 的 缓冲 区 来 节省 磁盘 IO? 
习题 15.4.5 ” 例 15.7 中 ， 我 们 讨论 了 两 个 关系 丸和 5 的 连接 ， 它 们 分 别 有 1000 块 和 500 块 ， 
并 且 JM101。 但 是 我 们 指出 ， 如 果 具 有 给 定 值 的 元 组 太 多 ， 以 至 于 任何 一 个 关系 的 元 组 都 
不 能 全 部 装 人 内 存 ， 那 么 就 会 有 额外 的 磁盘 IO。 计 算 需 要 的 磁盘 IO 总 数 ， 如 果 : 

* a) 仅 有 两 个 7 值 ， 每 一 个 出 现在 R 的 元 组 的 一 半 和 5 的 元 组 的 一 半 中 (回忆 一 下 ?是 一 个 
或 多 个 连接 属性 ) 。 
748 bd 有 5 个 了 值 ， 每 个 7 值 在 每 一 个 关系 中 出 现 的 可 能 性 相等 。 

c) 有 10 个 7 值 ， 在 每 一 个 关系 中 每 一 个 很 可 能 相等 。 
习题 15.4.6 用 15.4.7 节 中 更 有 效 的 排序 连接 重复 习题 15.4.5。 
习题 15.4.7 如 果 每 个 关系 有 10 000 个 块 ， 并 且 使 用 基于 排序 的 两 趟 算法 ， 对 于 以 下 运算 ， 


我 们 各 需要 多 少 内 存 ? 
* a) bo 
b) yo 


0) 一 个 二 元 操作 ， 比 如 连接 或 并 。 

习题 15.4.8 对 于 习题 15.2.4 中 5 个 类 连接 操作 符 中 的 每 一 个 ， 描 述 一 种 基于 排序 的 两 趟 算法 。 
习题 15.4.9 ”假设 记录 可 以 大 于 块 ， 也 就 是 说 ， 我 们 可 以 有 路 块 记录 。 基 于 排序 算法 的 内 
存 需 求 将 怎样 变化 ? 

!! 习题 15.4.10 ”有 时 ， 如 果 我 们 将 最 后 一 个 子 表 放 在 内 存 中 ， 可 能 会 节省 部 分 磁盘 IO。 为 
利用 这 个 效果 而 应 使 用 少 于 M 块 的 子 表 ， 这 甚至 也 是 有 意义 的 。 这 种 方法 能 节省 多 少 磁盘 
VO? 

习题 15.4.11 OQL 人 允许 依据 对 象 的 任意 的 用 户 定义 函数 来 对 对 象 分 组 。 例如， 我 们 可 以 依 
据 两 个 属性 的 和 对 元 组 分 组 。 在 一 个 对 象 集 上 ， 我 们 怎样 执行 这 种 类 型 的 一 个 基于 排序 的 
分 组 操作 ? 


15.5 基于 散 列 的 两 趟 算法 


有 一 个 基于 散 列 的 算法 系列 处 理 与 15.4 节 中 相同 的 问题 。 所 有 这 些 算 法 的 基本 思想 如 下 。 
如 果 数 据 量 太 大 以 至 于 不 能 存 人 内 存 缓冲 区 中 ， 就 使 用 一 个 合适 的 散 列 关键 字 散 列 一 个 或 多 个 
操作 对 象 的 所 有 元 组 。 对 于 所 有 通常 的 操作 ， 有 一 种 选择 散 列 关键 字 的 方法 ， 它 能 使 在 我 们 执 
行 该 操作 时 需要 一 起 考虑 的 所 有 元 组 具有 相同 的 散 列 值 。 
然后 ， 我 们 通过 一 次 处 理 一 个 桶 (或 者 在 二 元 操作 运算 的 情况 下 ， 通 过 一 次 处 理 具 有 相同 
散 列 值 的 一 对 桶 ) 的 方式 执行 操作 。 实 际 上 ， 我 们 已 经 减 小 了 操作 对 象 的 大 小 ， 减 小 的 比例 等 
于 桶 的 数目 。 如 果 有 M 个 可 用 缓冲 区 ， 我 们 可 以 将 于 作为 桶 的 数目 ， 这 样 我 们 所 能 处 理 的 关系 
大 小 就 增 大 了 MM 倍 。 注 意 ，15.4 节 中 基于 排序 的 算法 通过 预 处 理 也 得 到 了 一 个 因子 M， 尽 管 排 
序 和 散 列 这 两 种 方法 达到 这 一 相似 比例 的 方法 各 不 相同 。 
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15.51 通过 散 列 划 分 关系 
首先 我 们 回顾 一 下 接受 关系 R 并 使 用 WM 个 缓冲 区 将 R 划 分 成 大 小 大 致 相等 的 M - 1 个 桶 的 方 
式 。 我 们 将 假设 4 是 散 列 函数 ,并 且 h 将 R 的 整个 元 组 作为 参数 (也 就 是 说 ，R 的 所 有 属性 都 是 散 
列 关 键 字 的 一 部 分 ) 。 我 们 将 每 一 个 桶 和 一 个 缓冲 区 联系 起 来 。 最 后 一 个 缓冲 区 用 来 每 次 一 块 
地 装 人 有 的 块 。 块 中 的 每 个 元 组 ! 被 散 列 到 桶 AD 并 且 被 复制 到 适当 的 缓冲 区 中 。 如 果 缓 冲 区 满 
了 ， 我 们 就 将 它 写 到 磁盘 ， 并 且 为 同一 个 桶 初始 化 另 一 个 块 。 最 后 ， 对 于 每 个 桶 的 最 后 一 块 ， 
如 果 它 不 空 的 话 ， 我 们 就 把 它 写 到 磁盘 。 图 15-12 更 详细 地 描述 了 这 一 算法 。 注 意 ， 虽 然 元 组 
的 长 度 可 能 是 变化 的 ， 但 是 该 算法 假设 元 组 不 会 大 到 不 能 装 人 一 个 空 的 缓冲 区 中 。 
initialize M-1 buckets using M-1 empty buffers; 
FOR each block b of relation R DO BEGIN 
read block b into the Mth buffer; 
FOR each tuple t in b DO BEGIN 
IF the buffer for bucket h(t) has no room for t THEN 
BEGIN 
copy the buffer to disk; 
initialize a new empty block in that buffer; 
END; 
copy t to the buffer for bucket h(t); 
END; 
END; 
FOR each bucket DO 


IF the buffer for this bucket is not empty THEN 
write the buffer to disk; 


图 15-12 将 一 个 关系 划分 到 M - 1 个 桶 中 


15.5.2 基于 散 列 的 消除 重复 算法 

现在 ， 对 于 各 种 可 能 需要 两 趟 算法 的 关系 代数 操作 ， 我 们 来 考虑 基于 散 列 的 算法 的 细节 。 
首先 考虑 重复 的 消除 ， 即 操作 和 XR)。 按 照 图 15-12， 我 们 将 R 散 列 到 M - 1 个 桶 。 注 意 ， 相 同 元 组 
/的 两 个 副本 将 散 列 到 同一 个 桶 中 。 因 此 ，&6 具 有 我 们 所 需要 的 基本 特性 : 我 们 可 以 一 次 检查 一 
个 桶 ,在 该 桶 中 独立 地 执行 5， 并 且 把 XR 的 并 作为 结果 ， 其 中 RR 是 R 中 散 列 到 第 ;个 桶 的 那 一 部 
分 。15.2.2 节 中 的 一 趟 算法 可 以 用 来 依次 消除 每 个 R 中 的 重复 ， 并 将 产生 的 惟一 元 组 写 回 磁盘 。 

只 要 每 一 个 Ri 小 到 能 装 入 内 存 因 而 允许 使 用 一 趟 算法 ， 这 个 方法 就 可 行 。 因 为 我 们 假设 散 
列 函 数 j 将 R 划 分 到 大 小 相同 的 桶 中 ， 那 么 每 一 个 Ri 的 近似 大 小 为 B(R)MM - 1) 个 块 。 如 果 这 一 块 
数 小 于 等 于 M， 即 B(R)<M(M - 1)， 那 么 基于 散 列 的 两 趟 算法 就 可 行 。 事 实 上 ， 就 像 我 们 在 
15.2.2 节 讨论 的 那样 ， 只 要 每 个 桶 中 不 同 元 组 的 数量 能 被 M 个 缓冲 区 容纳 就 可 以 ， 但 是 我 们 根 
本 不 能 确定 是 否 有 重复 。 所 以 ， 一 个 保守 的 估计 是 BCR)<M2， 这 是 在 认为 M 和 MM - 1 相同 时 得 
到 的 简单 形式 ， 和 6 的 基于 排序 的 两 趟 算法 一 样 。 | 

磁盘 VO 的 数量 也 与 基于 排序 的 算法 相似 。 当 我 们 散 列 元 组 时 ， 读 取 R 的 每 个 块 一 次 ， 并 且 
将 每 个 桶 的 每 个 块 写 到 磁盘 上 。 然 后 在 针对 该 桶 的 一 趟 算法 中 ， 我 们 再 次 读 取 每 个 桶 的 每 一 个 
块 。 因 此 ， 磁 盘 IO 的 总 数量 是 3BCR)。 
15.5.3 STRAND AMR 

为 了 执行 % (R) 操 作 ， 我 们 也 是 首先 将 R 的 所 有 元 组 散 列 到 M - 1 个 桶 中 。 然 而 ， 为 了 确保 
同一 组 的 所 有 元 组 最 终 都 在 同一 个 桶 内 ， 我 们 选择 的 散 列 函 数 依赖 于 表 L 中 的 分 组 属性 。 

将 R 分 到 桶 中 以 后 ， 接 下 来 ， 我 们 可 以 用 15.2.2 节 中 yy 的 一 趟 算法 依次 处 理 每 一 个 桶 。 和 我 
们 在 15.5.2 节 对 6 的 讨论 一 样 ， 只 要 BCR)<M?， 我 们 就 可 以 在 内 存 中 处 理 每 一 个 桶 。 
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然而 ， 在 第 二 趟 中 ， 我 们 在 处 理 每 一 个 桶 时 只 需要 每 个 分 组 中 的 一 个 记录 。 因 此 ， 即 使 桶 
的 大 小 大 于 M， 只 要 桶 内 各 个 分 组 的 记录 使 用 的 缓冲 区 数 不 超 过 M， 我 们 就 可 以 在 一 趟 中 处 理 
该 桶 。 一 般 地 说 ,一 个 分 组 的 记录 不 会 比 R 的 一 个 元 组 大 。 如 果 是 这 样 ， 那 么 B(R) 的 一 个 更 好 
的 上 界 是 每 个 分 组 中 平均 元 组 数量 的 M7? 倍 。 

因此 ， 如 果 分 组 很 少 ， 那么 我 们 实际 上 能 处 理 的 关系 R 可 能 比 B(R) MM 规则 所 指出 的 更 大 。 
另 一 方面 ， 如 果 M 超 过 了 分 组 的 数量 ， 那 么 ， 我 们 不 能 填充 所 有 的 桶 。 所 以 ， 作 为 M 的 一 个 函 
数 ，R 的 大 小 的 实际 限制 很 复杂 ， 但 B(R) 专 MM? 是 一 个 保守 的 估计 。 最 后 ， 和 565 一样， 我 们 发 现 y 
的 磁盘 1/O 数 是 3B(R)。 | 
15.5.4 .基于 散 列 的 并 、 交 、 差 算法 

当 操 作 是 二 元 的 时 , 我 们 必须 保证 使 用 相同 的 散 列 函数 来 散 列 两 个 操作 对 象 的 元 组 。 例 如 ， 
为 了 计算 RU5sS， 我 们 将 R 各 自 散 列 到 AM - 1 个 桶 ， 例如 Ri,R2,…,Ry_1 和 S1,S;…,Sm-1。 然后 ， 对 
于 所 有 的 i， 我 们 计算 R 和 5; 的 集合 并 ， 并 且 输 出 结果 。 注 意 ， 如 果 一 个 元 组 在 R 和 s 中 都 出 现 ， 
那么 对 于 某 i， 我 们 在 Ri 和 3; 中 都 将 发 现 :。 这 样 ， 当 我 们 计算 这 两 个 桶 的 并 时 ,将 仅 输出 1 的 一 
个 副本 ， 不 可 能 将 重复 引入 结果 中 。 对 于 Us 而 言 ，15.2.3 节 中 简单 的 包 - 并 算法 胜 于 执行 这 一 
操作 的 任何 其 他 方法 。 

为 了 计算 R 和 5 的 交 或 差 ， 我们 像 计 算 集合 并 时 一 样 创建 2(M - 1) 个 桶 ， 并 且 在 每 对 对 应 的 
桶 上 运用 适当 的 一 趟 算法 。 注 意 ， 所 有 这 些 算 法 需要 BCR)+B(S) 次 磁盘 IO。 在 这 个 数目 上 ,我 
们 还 必须 加 上 每 个 块 的 两 次 磁盘 IO ， 这 是 用 来 散 列 两 个 关系 中 的 元 组 ， 并 将 桶 存储 到 磁盘 上 ， 
一 共 是 3(B(R)+B(S) 次 磁盘 IO。 

为 了 使 算法 可 行 ， 我 们 必须 能 一 趟 计算 Ri 和 5 的 并 、 交 或 差 ，R 和 5 的 大 小 分 别 约 为 B (R) / 
MH-1 和 B(S)/M - 1。 回 忆 一 下 ， 这 些 操作 的 一 一 趟 算法 要 求 较 小 的 操作 对 象 至 多 占用 M - 1 个 块 。 
因此 ， 基 于 散 列 的 两 趟 算法 近似 地 要 求 min(B(R), BSM. 

15.5.5 散 列 连接 算法 

为 了 使 用 基于 散 列 的 两 趟 算法 计算 RCX,Y)m 5S(Y,Z)， 我 们 所 要 做 的 与 15.5.4 节 中 讨论 的 其 他 
二 元 操作 几乎 一 样 。 惟 一 的 区 别 是 我 们 必须 用 连接 属性 了 作 散 列 关 键 字 。 这 样 我 们 就 能 确定 ， 
如果 R 和 5 的 元 组 能 连接 ， 那么 它们 必然 出 现在 具有 某 个 ; 值 的 相应 桶 尺 和 5S 中 。 所 有 对 应 桶 对 的 

个 一 趟 连接 最 后 完成 这 个 我 们 称 为 散 列 连接 的 算法 。 

例 15.9 ”让 我 们 再 次 讨论 例 15.4 中 的 两 个 关系 R 和 S$， 它 们 的 大 小 分 别 为 1000 块 和 500 块 ， 
并 且 有 101 个 内 存 缓冲 区 是 可 用 的 。 我 们 可 以 将 每 一 个 关系 散 列 到 100 个 桶 中 ， 所 以 一 个 桶 的 平 
均 大 小 对 于 R 是 10 个 块 ， 对 于 S 是 5 个 块 。 因 为 较 小 的 数 5 远 远 小 于 可 得 到 的 缓冲 区 的 数量 ,我 
们 预计 在 每 一 个 桶 对 上 ， 执 行 一 趟 连接 不 会 有 困难 。 

当 散 列 到 桶 中 时 ， 读 取 R 和 5 共和 需要 1500 次 磁盘 1/O ， 将 所 有 的 桶 写 到 磁盘 又 需要 1500 次 ， 
执行 对 应 桶 的 一 趟 连接 时 再 次 将 每 一 个 桶 对 读 到 内 存 需 要 第 三 个 1500。 因此 ， 需要 的 磁盘 IO 
数 是 4500， 和 15.4.7 节 中 有 效 的 排序 连接 一 样 。 口 


我 们 可 以 对 例 15.9 进 行 推广 而 得 到 如 下 结论 : 
© 散 列 连接 需要 3(B(R)+B(5)) 次 磁盘 VO 来 完成 它 的 任务 。 
* 只 要 近似 地 有 min(B(R),B8(5)) < M*， 两 趋 散 列 连接 算法 就 是 可 行 的 。 


@ 有 时 候 ， 术 语 “ 散 列 -连接 ”专门 指 15.2.3 节 中 一 趟 算法 的 一 种 变 体 ， 其 中 用 散 列 表 作 为 内 存 中 的 查找 结构 。 这 时 ， 
这 里 描述 的 两 趟 散 列 -连接 算法 就 称 做 “划分 散 列 -连接 ”。 
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后 一 点 的 操作 对 象 与 其 他 二 元 操作 相同 ; 每 一 个 桶 对 中 必须 有 一 个 能 全 部 装 人 M - I 个 缓冲 区 中 。 
15.5.6 节省 一 些 磁盘 IO 

在 第 一 趟 时 ， 如 果 可 用 内 存 比 容纳 每 一 个 桶 的 一 个 块 所 需 内 存 更 多 ， 那 么 , 我们 有 可 能 节 
省 磁盘 IO。 一 个 选择 是 为 每 一 个 桶 使 用 若干 块 ， 并 且 将 它们 整体 写 到 磁盘 中 连续 的 块 上 。 严 
格 地 说 ， 这 项 技术 不 能 节省 磁盘 VO， 但 是 它 使 得 VO 执行 得 快 一 些 ， 因 为 我 们 写 磁 盘 时 能 减少 
寻 道 时 间 和 旋转 延迟 。 

然而 ， 有 一 些 技巧 曾 被 用 来 避免 将 一 些 桶 中 内 容 写 到 磁盘 并 且 接 着 再 次 读 它们 。 其 中 最 有 
效 的 技巧 ， 称 为 混合 散 列 连接 ， 它 的 工作 方式 如 下 。 一 般 地 讲 ， 假 设 我 们 确定 连接 Rm Ss HSE 
较 小 的 关系 ， 我 们 需要 建立 k 个 桶 ， 这 里 的 k 远 远 小 于 可 用 的 内 存 M。 当 我 们 散 列 S 时 ， 可 以 选 
择 将 个 桶 中 的 m 个 完全 保留 在 内 存 中 ， 而 对 于 其 他 k - m 个 桶 中 的 每 一 个 ， 则 仅 保留 一 个 块 。 
只 要 内 存 中 的 桶 的 预期 大 小 加 上 其 他 每 个 桶 的 一 个 块 不 超过 M; BD: 


A +k—m<M (15-1) 

我 们 就 能 努力 做 到 这 一 点 。 解 释 一 下 ， 一 个 桶 的 预期 大 小 是 B(SYk， 并 且 有 m 个 桶 在 内 存 中 。 

现在 ， 当 读 取 另 一 个 关系 R 的 元 组 ， 以 将 这 个 关系 散 列 到 桶 中 时 ， 我 们 在 内 存 中 保留 : 

1. S 的 m 个 从 未 写 到 磁盘 的 桶 ， 以 及 

2. R 的 km 个 桶 中 每 一 个 的 一 块 ， 这 km 个 桶 对 应 的 S 桶 被 写 到 磁盘 上 。 

如 果 R 的 一 个 元 组 散 列 到 最 开始 的 m 个 桶 的 其 中 一 个 ， 那 么 我 们 立刻 将 它 和 相应 的 S 桶 的 元 
组 连接 ， 就 好 像 正 在 做 一 趟 散 列 一 连接 那样 。 任 何 成 功 连接 的 结果 都 被 立刻 输出 。 和 一 趟 散 
列 -连接 一 样 ， 为 了 加 速 这 个 连接 ，$ 在 内 存 中 的 各 个 桶 有 必要 组 织 成 某 种 有 效 的 查找 结构 。 如 
果 墩 列 到 某 个 桶 中 ， 该 桶 相对 应 的 $ 桶 位 于 磁盘 上 ， 那 么 和 基于 散 列 的 两 趟 连接 一 样 ，; 被 送 到 
该 桶 在 内 存 中 的 块 中 ， 而 且 最 终 将 移 到 磁盘 上 。 

在 第 二 趟 中 ， 我 们 像 通常 一 样 连接 R 和 8 的 相应 的 桶 。 然 而 ， 对 留 在 内 存 中 的 8 桶 ， 没 有 必 
要 连接 相应 的 桶 对 ， 因 为 这 些 桶 已 经 被 连接 而 且 结 果 也 已 输出 。 , 

对 于 留 在 内 存 的 5 的 桶 和 相应 的 R 桶 中 的 每 一 个 块 ， 节 省 的 磁盘 VO 的 数目 等 于 2。 因 为 在 内 
存 中 的 桶 的 比率 为 m/x， 所 以 VO 节省 为 20m/R(B(R)+B(5))。 因 此 ， 我 们 肯定 会 问 ， 在 满足 等 式 
(15-1) 的 约束 前 提 下 ， 如 何 最 大 限度 地 增加 m/x。 尽 管 这 个 问题 的 答案 可 以 形式 化 地 得 到 ， 但 
凭 直 党 可 以 得 到 一 个 令 人 惊奇 但 又 正确 的 答案 : m=1， 而 k 尽 可 能 小 。 

论证 如 下 。 内 存 缓冲 区 中 除了 km 个 以 外 的 所 有 缓冲 区 都 可 以 用 来 容纳 S 在 内 存 中 的 元 组 ， 
并 且 这 样 的 元 组 越 多 ,磁盘 VO 的 数量 越 少 。 因 此 ， 我 们 想 使 :， 即 桶 的 总 数量 最 小 。 我 们 通过 
使 每 个 桶 在 能 被 内 存 容纳 的 前 提 下 尽 可 能 大 来 做 到 这 一 点 ; 也 就 是 说 ， 桶 的 大 小 为 M， 因 此 
k=B(S)YM。 如 果 是 这 样 ， 那 么 ， 额 外 的 内 存 中 只 有 存放 一 个 桶 的 空间 ， 即 m = 1。 

事实 上 ， 我 们 真正 需要 使 桶 稍 小 于 B(S) / M， 否 则 ， 我 们 就 没有 足够 的 空间 来 同时 容纳 一 
个 满 的 桶 和 其 他 k - 1 个 桶 各 自 的 一 块 。 为 简化 起 见 ， 假 设 大 大约 是 BC9YM，m = 1， 节 省 的 磁 
AIOE: 

(a) (BR) + B(S)) 

而 且 总 的 代价 为 : 


(3 一 aS) (B(R) + B(S)) 
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$15.10 ”考虑 例 15.4 的 问题 ， 在 那里 我 们 使 用 M=101 连 接 关系 R 和 S， 其 大 小 分 别 为 1000 块 
和 500 块 。 如 果 使 用 混合 散 列 -连接 ， 那么 我 们 希望 桶 的 数量 大约 为 500/101。 假设 我 们 选 定 k=5， 
那么 ， 平 均 每 个 桶 将 有 5$ 的 元 组 的 100 个 块 。 如 果 试 图 在 内 存 中 容纳 这 些 桶 中 的 一 个 以 及 对 应 于 
其 他 4 个 桶 的 4 个 额外 的 块 ， 那 么 需要 104 个 内 存 块 ， 而 我 们 不 能 冒 内 存 中 的 桶 溢出 内 存 这 个 险 。 

因此 , 我 们 建议 选择 k=6。 现 在 ， 当 在 第 一 趟 中 散 列 S 时 , 我 们 有 对 应 于 5 个 桶 的 5 个 缓冲 区 ， 
而 且 ， 对 于 内 存 中 的 桶 ， 我 们 已 经 高 达 有 96 个 缓冲 区 ， 桶 的 预期 大 小 是 500/6 即 83。 对 于 S$， 在 
第 一 趟 中 我 们 用 来 读 取 $ 的 所 有 内 容 所 使 用 的 磁盘 IO 的 数目 是 500， 并 且 500 - 83=417 个 WO 用 
来 将 5 个 桶 写 到 磁盘 。 当 我 们 在 第 一 趟 中 处 理 R 时 ， 需 要 读 取 R 的 所 有 内 容 (1000 次 磁盘 VO) ， 并 
将 它 的 6 个 桶 中 的 5 个 写 到 磁盘 上 (833 个 磁盘 IO) 。 

在 第 二 趟 中 ,我 们 读 取 写 到 磁盘 上 的 所 有 的 栖 ， 即 再 进行 417+833=1250 个 磁盘 IO。 总 的 
磁盘 VO 的 数量 就 是 1500 个 用 于 读 取 R 和 S$，1250 个 用 于 将 这 些 关系 中 的 5/6 写 出 ， 再 有 1250 个 用 
于 再 次 读 取 那些 元 组 ， 或 者 说 总 数 是 4000 个 磁盘 1/O。 这 个 数字 可 与 直接 的 散 列 连接 或 排序 连 
接 所 需 的 4500 个 磁盘 IO 比较 。 口 


155.7 基于 散 列 的 算法 小 结 

图 15-13 给 出 了 本 节 中 讨论 的 每 一 个 算法 的 内 存 需 求 和 磁盘 1/O 的 数量 。 就 像 其 他 类 型 的 算 
法 一 样 ， 我 们 应 该 注意 到 对 于 yA S 的 估计 可 能 是 保守 的 ， 因 为 它们 实际 上 分 别 决定 于 副本 和 
组 的 数量 ， 而 不 是 操作 对 象 关系 的 元 组 的 数量 。 










15.5.2, 15.5,3 


3(B(R) + B(S)) 15.5.4 









15.5.5 





3(B(R) + B(S)) 
VBS) | (3- 2M/B(S))(B(R) + B(S)) 
图 15-13 基于 散 列 算法 的 内 存 和 磁盘 IO 需求 ; 对 于 二 元 操作 ， 假 设 B(S)< BR) 


请 注意 基于 排序 的 算法 和 相应 的 基于 散 列 的 算法 的 需求 几乎 是 相同 的 。 两 种 方法 明显 的 区 
别 是 : 

1. 二 元 操作 的 基于 散 列 的 算法 有 一 个 大 小 的 需求 , 它 仅 依赖 于 两 个 操作 对 象 中 较 小 的 一 个 ， 
而 不 是 在 基于 排序 的 算法 中 的 两 个 操作 对 象 的 和 。 

2. 基于 排序 的 算法 有 时 允许 我 们 产生 一 个 有 序 序列 的 结果 ， 而 且 以 后 利用 那个 排序 序列 。 
结果 可 能 在 以 后 的 另 一 个 基于 排序 的 算法 中 使 用 ， 或 它 可 以 作为 一 个 需要 以 有 序 序列 输出 的 查 
询 的 回答 。 

3. 基于 匣 列 的 算法 依赖 于 相等 大 小 的 桶 。 由 于 通常 在 大 小 上 至 少 有 小 的 差异 ， 因 此 就 不 可 
能 使 用 平均 占用 M 块 的 桶 ; 我 们 必须 将 它们 限制 在 一 个 较 小 的 数字 。 如 果 不 同 散 列 关键 字 的 数 
量 小 的 时 候 ， 这 一 现象 尤其 显著 ,例如 ， 在 一 个 关系 上 执行 一 个 具有 少数 组 的 group-by 或 者 执 
行 一 个 在 连接 属性 上 有 很 少 元 组 的 连接 。 . 

4. 在 基于 排序 的 算法 中 ， 如 果 我 们 适当 地 组 织 磁盘 ， 排 序 子 表 可 能 被 写 到 磁盘 上 连续 的 块 
中 。 因 此 ， 每 个 块 的 三 个 磁盘 WO 中 的 一 个 可 能 需要 较 短 的 旋转 延迟 或 寻 道 时 间 ， 所 以 可 能 比 
基于 散 列 的 算法 中 需要 的 IO 快 得 多 。 


13.5.6 
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5. 此 外 ， 如 果 MM 比 排序 子 表 的 数量 大 得 多 ， 那么， 我 们 可 以 从 一 个 排序 的 子 表 一 次 读 一 些 
连续 的 块 ， 再 一 次 节省 了 一 些 延 迟 和 寻 道 时 间 。 

6. 另 一 个 方面 ， 在 一 个 基于 散 列 的 算法 中 ， 如 果 能 够 选择 桶 的 数量 小 于 M， 那 么 ， 我 们 可 
以 一 次 写 出 一 个 桶 的 若干 个 块 。 因 而 在 散 列 的 写 这 一 步 上 ， 可 以 得 到 与 我 们 在 (5) 中 看 到 的 基 
于 排序 算法 的 第 二 次 读 相同 的 利益 。 类 似 地 ， 我 们 可 以 组 织 磁 盘 使 得 一 个 桶 处 于 磁道 连续 的 块 
上 。 如 果 是 这 样 ， 就 如 (4) 中 所 看 到 的 排序 的 子 表 被 有 效 地 写 出 一 样 ， 桶 可 以 用 较 短 的 延迟 或 
寻 道 时 间 来 读 取 。 
15.5.8 习题 
习题 15.5.1 ”在 内 存 中 存储 一 个 桶 的 混合 散 列 连接 的 思想 也 可 以 用 于 其 他 的 操作 。 当 执行 
下 列 的 一 个 两 趟 的 基于 散 列 的 算法 时 ， 说 明 怎 样 节省 从 每 一 个 关系 中 存储 和 读 取 一 个 桶 的 
代价 ? 
* ad 

b) Y 

c) Me 

d) -s 
习题 15.5.2 ”如 果 B(S)=B(R)=10,000，M=1000， 则 对 于 一 个 混合 散 列 连接 需要 多 少 磁盘 
LO? 
习题 15.5.3 XFS (b)y(c) Na (d -5 (e)m ， 写 出 实现 它们 的 两 趟 的 基于 散 列 的 算法 
的 迭代 器 。 
习题 15.5.4 ”设想 我 们 正在 一 个 大 小 合适 的 关系 R 上 执行 一 个 两 趟 的 、 基 于 散 列 的 分 组 操 
作 。 也 就 是 说 ，B(R) 生 M2。 然 而 ， 组 太 少 ， 并 且 一 些 组 大 于 Mi; 也 就 是 说 ， 它 们 不 能 一 次 
装 人 内 存 中 。 对 这 里 给 定 的 算法 ， 需 要 做 怎样 的 修改 ? 
习题 15.5.5 ”设想 我 们 正 使 用 一 个 磁盘 ， 它 将 磁头 移动 到 一 个 块 的 时 间 是 100 毫 秒 ， 而 且 它 
用 1/2 上 毫秒 读 取 一 个 块 。 所 以 ， 一 旦 磁头 定位 ， 它 用 2 毫秒 去 读 取 k 个 连续 的 块 。 假 设 我 们 
想 计 算 一 个 两 赵 的 散 列 连接 Rb 9$， 这 里 B(R) =1000，B(S) =500， 而 且 M=101。 为 了 加 快 连 
接 ， 我 们 想 使 用 尽量 少 的 桶 (假设 元 组 最 后 都 分 配 到 桶 中 ) ， 而 且 ， 将 尽量 多 的 块 读 和 写 到 
磁盘 连续 的 位 置 上 。 一 次 随机 的 磁盘 IO 计 为 100.5 毫 秒 ， 从 磁盘 读 或 写 到 磁盘 k 个 连续 的 块 
计 为 要 100+k/2 毫 秒 ; 

a) 磁盘 IO 占用 多 少时 间 ? 

b) 如 果 我 们 使 用 例 15.10 中 描述 的 混合 散 列 连接 ， 磁 盘 1/O 占 用 多 少时 间 ? 

c) 在 相同 的 条 件 下 ， 一 个 基于 排序 的 连接 将 占用 多 少时 间 ( 假 设 我 们 将 排序 子 表 写 到 

磁盘 连续 的 块 中 ) ? 


15.6 基于 索引 的 算法 


索引 存在 一 个 关系 的 一 个 或 多 个 属性 上 使 得 一 些 没有 索引 就 不 可 行 的 算法 可 行 了 。 基 于 索 
引 的 算法 对 于 选择 操作 尤其 有 用 , 但 是 , 连接 和 其 他 二 元 操作 符 的 算法 也 使 用 索引 来 获得 好 处 。 
本 节 中， 我 们 将 介绍 这 些 算法 。 我 们 也 继续 对 15.1.1 节 中 开始 的 对 于 访问 一 个 带 索 引 的 表 时 索 
引 扫描 操作 的 讨论 。 为 了 理解 问题 ， 我 们 首先 需要 离开 主题 去 考虑 “聚焦 ”索引 。 
15.6.1 聚 簇 和 非 聚 簇 索引 

回忆 15.1.3 节 ， 如 果 一 个 关系 的 元 组 紧缩 到 能 存储 这 些 元 组 的 尽 可 能 少 的 块 中 ， 那 么 这 个 


* 
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关系 就 是 “ 聚 艇 ”的 。 我 们 迄今 为 止 所 做 的 所 有 的 分 析 都 假设 关系 是 聚 艇 的 。 

我 们 也 可 能 谈 到 在 一 个 或 多 个 属性 上 的 聚 徐 索引 ， 具 有 这 个 索引 查询 关键 字 的 一 个 固定 值 
的 所 有 元 组 都 出 现在 能 容纳 它们 的 尽 可 能 少 的 块 中 。 请 注意 一 个 非 聚 簇 的 关系 不 能 够 有 一 个 聚 
复 索 引 ”， 但 是 一 个 聚 秘 的 关系 可 以 有 非 聚 氮 索 引 。 

例 15.11 一 个 关系 R(a，b) 按 属 性 a 排 序 并 且 按 此 序列 存储 ， 再 装 人 到 块 中 ， 肯 定 是 聚 簇 
的 。 因 为 对 于 一 个 给 定 的 a 值 a;:/， 所 有 的 具有 那个 a 值 的 元 组 是 连续 存放 的 ， 所 以 在 a 上 的 索引 
是 一 个 聚 能 索引 。 因 而 除了 如 图 15-14 所 示 的 包含 x 值 wa 的 第 一 块 和 最 后 一 块 以 外 ， 它 们 都 出 现 
在 组 装 好 的 块 中 。 然 而 ， 在 上 的 一 个 索引 未 必 是 聚 簇 的 ， 因 为 有 一 个 固定 的 8 值 的 元 组 将 分 布 





到 文件 中 ， 除 非 c 和 2 的 值 有 很 紧密 的 相互 关系 。 口 
所 有 的 ai 元 组 


图 15-14 一 个 聚 包 索 引 中 具有 一 个 固定 值 的 所 有 元 组 组 装 到 最 小 可 能 数量 的 块 中 


15.6.2 基于 索引 的 选择 

15.1.1 节 中 ， 我 们 讨论 了 通过 读 取 关 系 R 的 所 有 元 组 执行 一 个 选择 oc(R)， 看 一 下 哪些 元 组 
满足 条 件 C， 而 且 输 出 它们 。 如 果 R 上 没有 索引 ， 那 么 ， 那 就 是 我 们 所 能 做 的 最 好 的 ; RE, 
如 果 R 不 是 一 个 聚 篮 的 关系 ， 操 作 所 用 的 磁盘 IO 的 数目 是 BR)， 甚 至 是 TUR) ， 即 中 元 组 的 数 
量 ”。 然 而 ,设想 条 件 C 是 a=v 的 形式 ， 这 里 的 a 是 一 个 存在 着 索引 的 属性 ，v 是 一 个 值 。 于 是 就 
可 以 用 v 值 来 查找 索引 并 且 得 到 恰好 指向 R 中 具有 a 值 y 的 那些 元 组 。 这 些 元 组 组 成 了 oc(R) 的 结 
果 ， 于 是 我 们 所 需要 的 就 只 是 取 回 它们 。 

如 果 R.a 上 的 索引 是 聚 簇 的 ,那么 取 回 集合 au=v(R) 所 需 的 磁盘 IO 的 数目 将 大 约 是 
B(R)/V(R,a)。 实 际 的 数目 可 能 会 高 一 些 ， 因 为 ，. 

1. 通常 ， 索 引 并 不 是 完全 保存 在 内 存 中 ， 因 此 需要 一 些 磁 盘 IO 支持 索引 的 查找 。 

2. 即使 <=v* 的 所 有 元 组 都 可 以 装 人 2 个 抉 中 ， 它 们 也 可 能 分 布 到 b+1 个 块 中 ， 因 为 它们 不 会 
在 一 个 块 的 起 始 处 开始 。 

3. 尽管 索引 是 聚 簇 的 ， 但 a=* 的 元 组 可 能 会 分 布 到 几 个 额外 的 块 中 。 为 什么 这 种 情况 会 发 
生 ， 有 两 个 原因 
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1. 在 13.2.2 节 中 ， 我 们 谈 到 “ 聚 徐 文件 组 织 ”"， 这 里 一 个 关系 R 的 若干 个 元 组 与 另外 菜 
个 关系 5 的 一 个 元 组 放 在 一 起 ， 它 们 共享 一 个 公共 值 ; 例子 就 是 若干 个 电影 元 组 与 哲 摄 这 
些 电影 的 工作 室 的 元 组 分 为 一 个 组 。 

2. 在 15.1.3 节 中 ， 我 们 谈 到 了 一 个 “ 聚 禾 关 系 ”， 意 思 是 关系 元 组 存储 在 全 部 ， 或 者 
至 少 是 主要 用 来 存储 这 个 关系 的 块 中 。 | 














e 技术 上 讲 ， 如 果 索 引 建 在 关系 的 一 个 关键 字 上 ， 因 此 给 定 一 个 索引 关键 字 值 ， 只 存在 一 个 具有 给 定 值 的 元 组 ， 
那么 即便 这 个 关系 不 是 误 艇 的， 这 个 索引 也 总 是 “ 聚 入 ”的 。 但 是 ， 如 果 每 个 索引 关键 字 值 都 只 有 -个 元 组 ， 
那么 聚 和 能 并 没有 益处 ， 并 且 对 这 样 的 索引 的 性 能 度量 与 假设 把 它 当 作 非 聚 得 的 是 一 样 的 。 

O 回忆 15.1.3 节 我 们 建立 的 记号 : R 中 元 组 的 数目 FUR)， 和 和 r(R) 中 不 同 元 组 的 数目 WR， 万 。 
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3. 这 里 ， 我 们 已 经 介绍 了 聚 稚 索 引 的 概念 一 一 一 个 索引 ， 其 中 要 查找 关键 字 上 具有 某 
个 给 定 值 的 所 有 元 组 都 出 现在 主要 集中 于 存储 具有 那个 查找 关键 字 值 的 元 组 的 块 中 。 一 
般 地 讲 ， 具 有 一 个 固定 值 的 元 组 将 被 连续 地 存储 ， 而 有 全 ， 仅 在 具有 那个 值 的 元 组 的 第 一 
块 和 最 后 一 块 中 有 另 一 个 查找 关键 字 值 的 元 组 。 

RRL BRRRRERA-PMRAGAMAT, ZAFAR, RRARFRF 


BAER ARAMA RMR, REX ASH- AEn pR PSR AM 
相 联系 。 那 么 ,及 的 元 组 没有 存储 到 专门 为 R 所 占用 的 块 中 , 但 这 些 块 是 主要 用 于 存放 民 的 ， 
并 且 我 们 称 R 是 聚 炙 的 。 另 一 个 方面 ， 通 常 S 不 是 一 个 聚 徐 的 关系 ， 因 为 它 的 元 组 通常 存 
放 在 主要 用 于 R 元 组 的 块 中 ， 而 不 是 元 组 的 块 中 。 





(a) 我 们 不 可 能 将 R 的 块 都 尽 可 能 地 填 满 ， 因 为 正如 13.1.6 节 中 所 讨论 的 ， 我 们 想 为 R 的 增长 
留 下 空间 。 

(b) R 可 能 与 一 些 不 属于 R 的 其 他 的 元 组 存储 在 一 起 。 例 如 在 聚 簇 文 件 组 织 中 就 是 这 样 。 

此 外 ， 如 果 比 例 B(RYV(R,a) 不 是 一 个 整数 ， 我 们 当然 必须 向 上 取 整 。 最 有 意义 的 是 ， 如 果 
a 是 R 的 一 个 关键 字 ， 那 么 V(R,a)=T(R)， 可 以 假定 它 一 定 比 B(R) 大 得 多 ， 然而， 我 们 确实 需要 
一 个 磁盘 IO 去 检索 具有 关键 字 值 v 的 元 组 ， 加 上 访问 索引 需要 的 磁盘 IO。 

现在 ， 让 然 我 们 考虑 当 R.a 上 的 索引 是 非 聚 簇 的 时 会 发 生 什么 。 作 为 第 一 个 近似 ， 我 们 取 
回 的 每 一 个 元 组 将 在 不 同 的 块 上 ， 而 且 ， 我 们 必须 访问 TCR)/V(R,a) 个 元 组 。 因 此 ，T(R)/V(R,a) 
是 我 们 估计 所 需要 的 磁盘 WO 的 数目 。 这 个 数字 可 能 会 更 高 ， 因 为 我 们 可 能 也 需要 从 磁盘 上 读 
一 些 索引 块 ; 它 也 可 能 会 低 一 些 ， 因 为 存 取 的 元 组 偶然 地 会 出 现在 同一 个 块 中 ， 和 而 旦 那个 块 留 
在 内 存 缓冲 区 中 。 

例 15.12 ”假设 BR)=1000，7(CR)=20 000， 也 就 是 说 ，R 有 20 000 个 元 组 存放 到 20 个 块 中 。 
令 q 是 R 的 一 个 属性 ， 假 设 在 a 上 有 一 个 索引 ， 并且 考 虑 0,-o(R) 操作 。 以 下 是 一 些 可 能 的 情形 以 
及 最 坏 情况 下 的 磁盘 LO 的 数目 。 在 所 有 情况 中 ， 我 们 将 忽略 访问 索引 块 的 代价 。 

1. 如 果 R 是 聚 灸 的 ， 但 是 我 们 不 使 用 索引 ， 那 么 代价 是 1000 个 磁盘 IO。 也 就 是 说 ， 我 们 必 
须 检 索 R 的 每 一 个 块 。 

2. 如 果 R 不 是 聚 簇 的 ， 而 且 我 们 不 使 用 索引 ， 那 么 代价 是 20 000 个 磁盘 UO。 

3. 如 果 WR,a)=100， 并 且 索 引 是 聚 入 的 ， 那 么 ， 基 于 索引 的 算法 需要 1000/100=10 个 磁盘 
VO。 

4. 如 果 WR,w=10， 并 且 索 引 是 非 育 能 的 ， 那 么 ， 基 于 索引 的 算法 需要 20 000/10=2000 个 磁 
盘 IO。 请 注意 ， 如 果 R 是 聚 簇 的 而 索引 不 是 的 ， 这 个 代价 将 高 于 扫描 整个 关系 R 的 代价 。 

5. 如 果 WR,a)=20 000， 也 就 是 说 ，a 是 一 个 关键 字 ， 那 么 ， 基 于 索引 的 算法 ， 不 管 索引 是 
案 徐 的 或 是 非 取 秘 的 ， 将 需要 1 个 磁盘 WO 加 上 访问 索引 所 需要 的 /JO。 oO 

索引 -扫描 作为 一 种 访问 的 方法 ， 对 几 个 其 他 种 类 的 选择 操作 也 有 所 帮助 。 

a) 一 个 索引 ， 比 如 一 个 B 树 ， 让 我 们 在 一 个 给 定 的 范围 内 有 效 地 访问 查询 关键 字 。 如 果 关 
系 R 的 属性 a 上 的 这 样 一 个 索引 存在 ， 那 么 对 于 比如 oz>io(R) 或 aio ann a<20(R) 这 样 的 选择 ， 我 们 
可 以 使 用 索引 检索 所 需要 的 范围 内 的 R 元 组 。 

b) 一 个 具有 复杂 条 件 C 的 选择 ， 有 时 可 以 通过 这 种 方法 实现 ; 在 索引 -扫描 后 ， 对 索引 - 扫 
描 检 索 到 的 元 组 进行 男 一 个 选择 。 如 果 C 的 形式 是 a=v AND C', 其 中 C ' 可 以 是 任何 条 件 , 那么 ， 
我 们 可 以 将 选择 分 割 成 为 两 个 选择 的 一 个 串联 ， 第 一 个 仅 检 查 c=v， 而 第 二 个 检查 C，。 第 一 个 
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很 可 能 使 用 索引 -扫描 操作 查询 优化 器 在 产生 一 个 逻辑 查询 计划 时 可 以 做 许多 改进 ， 这 种 选择 
操作 的 分 割 是 其 中 的 一 种 ; 这 将 在 16.7.1 节 中 专门 讨论 。 
15.6.3 使 用 索引 的 连接 . 

我 们 已 经 考虑 过 的 所 有 的 二 元 操作 ， 以 及 7 和 6 这 两 个 一 元 的 全 关系 操作 ， 都 可 以 使 用 某 些 
索引 ， 从 而 得 益 。 我 们 将 留 下 这 些 算法 的 大 部 分 作为 习题 ， 而 集中 于 关于 连接 的 讨论 。 特 别 地 ， 
让 我 们 考虑 自然 连接 RX, 让 m5(Y,Z); 回忆 一 下 ，X、7 和 2Z 可 以 代表 属性 的 集合 ， 尽 管 把 它们 
看 做 单个 属性 就 够 了 。 

对 于 我 们 的 第 一 个 基于 索引 的 连接 算法 ,假设 S 有 一 个 属性 Y 上 的 索引 。 那 么 计算 这 个 连接 
的 一 种 方式 是 检查 R 的 每 一 个 块 ， 并 在 每 一 个 块 中 考虑 每 一 个 元 组 t。 令 jy 是 的 对 应 于 属性 7 的 
部 分 。 使 用 索引 来 找 s 中 所 有 在 7 部 分 上 具有 wy 的 元 组 。 这 些 恰好 是 $ 中 与 R 的 元 组 :连接 的 元 组 ， 
因此 我 们 输出 这 些 元 组 中 每 一 个 与 {的 连接 。 

磁盘 VO 的 数量 依赖 于 几 个 因素 。 首 先 ， 假设 R 是 聚 徐 的 ， 我 们 将 需要 读 取 B(R) 个 块 来 得 到 
R 的 所 有 元 组 。 如 果 R 是 非 聚 艇 的 ， 那 么 可 能 会 需要 多 达 7T(R) 个 磁盘 1/O。 

对 R 的 每 一 个 元 组 ， 我 们 必须 平均 读 取 5 的 T(S) /ViS, Y) SICH. WRSTEY LA—PIERE 
的 索引 ， 那 么 所 需 的 磁盘 LO 的 数量 是 T(R)T(S)/V(S,Y)。 但 如 果 索 引 是 聚 簇 的 ， 那 么 仅 
TCR)B(S)/V(S, 耻 个 磁盘 VO 就 足够 了 。。 对 上 述 每 一 种 情况 ， 我 们 可 能 都 需要 为 每 个 7 值 增加 几 
个 磁盘 LO， 用 于 读 取 索引 本 身 。 

不 管 R 是 否 是 聚 簇 的 ， 访 问 8 的 元 组 的 代价 是 占 主 导 地 位 的 ， 因 此 我 们 可 以 采用 
T(R)T(S)/V(S,Y) 或 者 TCR)(max(1.8(SVCS,D)) 分 别 作为 9 上 非 聚 簇 的 和 聚 秘 的 情况 下 的 连接 方法 
的 代价 。 

例 15.13 让 我 们 考虑 一 个 运行 的 例子 ，R(X,Y) 和 5S(Y,Z) 分 别 是 包括 1000 和 500 个 块 的 关系 。 
假设 一 个 块 可 以 容纳 每 个 关系 的 10 个 元 组 ， 因 而 T(R) = 10 000，T(S) = 5000。 同 样 ， 假 设 
V(5,7) = 100; 也 就 是 说 ， 在 S$ 的 元 组 中 有 100 个 不 同 的 7 值 。 

假设 R 是 聚 篮 的 ， 并 且 S 在 Y 上 有 一 个 聚 和 能 索引 。 那 么 磁盘 IO 的 近似 值 ， 排 除 掉 访 问 索引 本 
身 所 需 的 后 ， 是 1000 个 磁盘 IO 用 来 读 取 R 的 块 (在 上 面 的 公式 中 忽略 了 ) ， 再 加 上 10 000 x 
500/100=50 000 个 磁盘 IO。 对 于 前 面 讨论 的 同样 的 数据 , 这 个 数字 明显 超过 了 其 他 方法 的 代价 。 
如 果 R 是 非 聚 钱 的 或 $ 上 的 索引 是 非 聚 簇 的 ， 代 价 就 会 变 得 更 高 。 口 


虽然 例 15.13 使 得 索引 -连接 看 起 来 像 是 一 个 很 差 的 办 法 ， 但 在 另 一 些 情况 下 用 这 种 方法 连 
ER m 8 就 有 意义 得 多 。 最 常见 的 情况 是 ， 与 8 相 比 ，R 很 小 ， 而 VS, 刀 很 大 。 我 们 在 习题 15.6.5 
中 讨论 一 个 典型 的 查询 ， 这 个 查询 在 连接 前 的 选择 使 得 R 很 小 。 在 那 种 情况 下 ，$ 的 大 部 分 将 不 
再 被 算法 检查 ， 因 为 大 多 数值 根本 不 出 现在 R 中 。 但 是 ,不论 基于 排序 的 还 是 基于 散 列 的 连 
接 方 法 都 将 检查 5 的 每 一 个 元 组 至 少 一 次 。 

15.6.4 使 用 有 排序 索引 的 连接 

当 索 引 是 一 个 B 树 或 者 其 他 可 以 使 我 们 容易 地 按照 排序 的 序列 提取 关系 的 元 组 的 结构 时 ， 
我 们 可 以 有 若 于 种 其 他 的 方法 来 利用 该 索引 。 可 能 最 简单 的 情况 是 当 我 们 想 计 算 RCX, 吧 mm 
SG7 习 时 ， 对 于 R 或 9， 我 们 在 7 上 有 一 个 排序 的 索引 。 我 们 可 以 执行 一 个 普通 的 排序 -连接 ， 但 
不 必 执 行 在 Y 上 对 其 中 一 个 关系 排序 的 中 间 步 又 。 

作为 一 个 极端 的 情况 ， 不 论 是 R 还 是 $s， 如 果 都 有 在 Y 上 的 排序 索引 ， 那 么 我 们 仅 需 要 执行 


O 但 是 记 住 ， 就 像 在 15.6.2 节 中 讨论 的 一 样 ， 如 果 BS)/V(S,D 很 小 ， 就 被 1 替代 。 


ŽA o ë 


15.4.5 节 中 简单 的 基于 排序 的 连接 的 最 后 一 步 。 这 个 方法 有 时 叫做 zig-zag 连 接 ， 因 为 我 们 在 索 
引 之 间 跳 来 跳 去 地 查找 它们 共享 的 7 值 。 注 意 ，R 中 具有 不 出 现在 $ 中 的 了 值 的 元 组 不 需要 检索 ， 
同样 ，$ 中 具有 不 出 现在 R 中 的 Y 值 的 元 组 也 不 需要 检索 。 

例 15.14 ”假设 我 们 有 关系 R(X,Y) 和 S(Y,Z)， 丙 个 关系 都 有 在 Y 上 的 索引 。 在 一 个 极 小 的 例 
子 中 ,假设 R 的 元 组 的 查询 关键 字 的 值 (7 值 ) 是 有 序 的 1、3、4、4、4、5、6, 令 5 的 元 组 的 查 
询 关键 字 的 值 是 2、2、4、4、6、7。 我 们 以 R 和 5 的 第 一 个 关键 字 开 始 ， 它 们 分 别 是 1 和 2。 因 
为 1<2， 我 们 跳 过 R 的 第 一 个 关键 字 ， 看 它 的 第 二 个 关键 字 3。 现 在 ， 5 当前 的 关键 字 小 于 R 当 前 
的 关键 字 ， 因 此 我 们 跳 过 5 的 两 个 2 到 达 4。 

在 这 一 刻 ，R 的 关键 字 3 小 于 § 的 关键 字 。 因 此 我 们 跳 过 R 的 关键 字 。 现 在 ， 两 个 关系 的 当 
前 关键 字 值 都 是 4。 我 们 在 两 个 关系 中 沿 着 所 有 关键 字 值 4 相关 的 指针 ， 检 索 相应 的 元 组 ， 并 将 
它们 连接 。 注 意 ， 直 到 我 们 遇 到 共同 的 关键 字 4 之 前 ， 没 有 检索 关系 的 元 组 。 

处 理 完 4 之 后 ,我 们 走 到 R 的 关键 字 5 和 5 的 关键 字 6， 由 于 5<6， 我们 跳 到 R 的 下 一 个 关键 字 。 
现在 关键 字 都 是 6， 因 而 我 们 检索 相应 的 元 组 并 连接 它们 。 既 然 R 现 在 已 经 空 了 ， 我 们 知道 两 个 
关系 中 已 经 没有 连接 的 元 组 了 。 口 


如 果 索 引 是 B 树 ， 那 么 我 们 像 图 15-15 那 样 ， 使 用 B 树 结构 中 从 叶 结 点 到 叶 结 点 的 指针 ， 按 
照 顺 序 从 左边 开始 扫描 两 个 B 树 的 叶 结 点 。 如 果 R 和 5 
是 聚 簇 的 ， 那 么 根据 一 个 给 定 的 关键 字 对 所 有 元 组 的 
检索 将 带 来 一 个 与 读 取 两 个 关系 的 片段 成 比例 的 磁盘 
IO 数目 。 注 意 在 极端 情况 下 ， 即 R 和 5S 有 太 多 的 元 组 


以 至 于 没有 一 个 能 装 人 可 用 的 内 存 时 ， 我 们 将 不 得 不 
使 用 类 似 15.4.5 节 的 修正 。 但 是 ， 在 一 般 的 情况 下 


使 用 公共 的 7 值 来 连接 所 有 的 元 组 这 一 步 ， 具 有 与 读 ~ 
它们 同样 多 的 磁盘 UO。 


例 15.15 ”让 我 们 继续 例 15.13， 看 一 看 使 用 排序 图 15-15 使 用 两 个 索引 的 zig-zag 连 接 
和 索引 相 结合 来 做 连接 将 怎样 在 这 个 数据 上 执行 。 首 
先 , 假设 S 有 一 个 在 Y 上 的 索引 ， 人 允许 我 们 来 检索 按照 7 排序 的 S 的 元 组 。 在 这 个 例子 中 ,我 们 将 
假设 关系 和 索引 都 是 聚焦 的 。 暂 时 ， 我 们 假设 R 上 没有 索引 。 

假设 内 存 有 101 个 可 用 的 块 ,我 们 可 以 使 用 它们 来 为 关系 R 的 1000 个 块 建立 10 个 排序 的 子 表 。 
磁盘 IO 的 数量 是 2000， 用 来 读 和 写 R 的 全 部 内 容 。 我 们 再 使 用 内 存 的 11 个 块 一 一 10 个 用 于 排序 
的 子 表 ， 一 个 用 于 经 过 索引 检索 到 的 $ 的 元 组 的 块 。 我 们 忽略 操纵 索引 所 需 的 磁盘 IO 和 内 存 组 
冲 区 ， 但 如 果 索 引 是 B 树 ， 这 些 数目 将 非常 小 。 在 第 二 趟 中 ， 我 们 读 R 和 S$ 的 所 有 的 元 组 ， 使 用 
总 共 1500 个 磁盘 IO ， 加 上 一 次 一 块 地 读 取 索 引 块 所 需 的 少量 磁盘 IO。 这 样 我 们 估计 总 共 的 磁 
盘 IO 在 3500， 这 少 于 迄今 为 止 考虑 过 的 其 他 方法 的 代价 。 

现在 ,假设 R 和 5 都 有 Y 上 的 索引 ， 那么 就 不 需要 对 任何 一 个 关系 排序 。 我 们 使 用 怡 好 1500 
个 磁盘 1/O 来 通过 R 和 5 的 索引 读 它们 的 块 。 实 际 上 ， 如 果 单 从 索引 上 确定 R 或 5 的 一 个 大 的 片段 
不 能 与 男 一 个 关系 的 元 组 匹配 ， 那 么 总 的 代价 将 远 远 低 于 1500 次 磁盘 1/O。 但 是 ， 不 管 娜 一 种 
情况 ， 我 们 都 应 该 增加 读 索 引 自身 所 需 的 少量 磁盘 1/O。 口 


15.6.5 习题 
习题 15.6.1 ”假设 属性 R.a 上 有 一 个 索引 。 描 述 怎样 将 这 个 索引 用 来 改善 下 面 操作 的 执行 效 
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率 。 在 什么 情况 下 ， 基 于 索引 的 算法 比 基 于 排序 或 基于 散 列 的 算法 更 有 效 ? 
* a) RUS (假设 R 和 5 没有 重复 ， 尽 管 它们 可 以 有 公共 的 元 组 ) 。 
b) RASS (同样 ， 使 用 R 和 5 集合 )。 
c) AR) 
习题 15.6.2 ”假设 BCR) = 10 000, T(R) = 500 000。R.a 上 有 一 个 索引 ， 另 外 ， 对 某 个 有 
V(R,a) = k。 在 下 面 的 情况 下 ， 给 出 os.o(R) 的 代价 ， 作 为 的 一 个 函数 。 可 以 忽略 访问 索引 
自身 所 需 的 磁盘 VO。 
* a) 5 | RIE 
b) RIER EH., 
c) REE, FFA MEARS, 
习题 15.6.3 如果 操作 是 范围 查询 Gc <awos<p(R)， 重 复习 题 15.6.2。 可 以 假设 C 和 D 是 使 得 
K10 的 值 在 范围 内 的 常量 。 
习题 15.6.4 ”如 果 R 是 育 秘 的， 但 R.a 上 的 索引 是 非 聚 簇 的 ， 那 么 依赖 于 f。 我 们 可 能 愿意 通 
过 执行 一 个 R 的 表 扫 描 ， 或 者 愿意 使 用 索引 来 实现 一 个 查询 。 对 于 什么 样 的 x 值 ， 我 们 更 愿 
使 用 索引 ， 如 果 关 系 和 查询 与 : 
a) 习题 15.6.2 相 同 。 
b) 习题 15.6.3 相 同 。 
习题 15.6.5 考虑 SQL 查询 : 
SELECT birthdate 


FROM StarsIn, MovieStar 
WHERE movieTitle = ’King Kong’ AND starName = name; 


这 个 查询 使 用 “movie” 关 系 : 


StarsIn( movieTitle, movieYear , starName) 
MovieStar(name, address, gender, birthdate) 


如 果 我 们 把 它 翻译 成 关系 代数 ， 核 心 是 一 个 在 


CmovieTitle= King Kong? (StarsIn) 


和 MovieStar 之 间 的 等 值 连接 ， 这 可 以 像 自然 连接 Rea 8 一 样 来 实现 。 既 然 仅 有 两 部 名 为 
“King Kong” 的 电影 ，T(R) 就 非常 小 。 假 设 $， 即 关系 Moviestar， 有 一 个 在 name 上 的 
索引 。 比 较 Rea 5 的 索引 连接 和 基于 排序 或 基于 散 列 连接 的 代价 。 

习题 15.6.6 ”在 例 15.15 中 ， 我 们 讨论 了 连接 Rm 5 的 磁盘 VO 代价 ， 其 中 R 和 5 中 的 一 个 或 两 
个 都 有 在 连接 属性 上 的 排序 索引 。 但 是 ， 如 果 有 太 多 的 在 连接 属性 上 值 相等 的 元 组 ， 那 么 
在 那个 例子 中 描述 的 方法 可 能 会 失败 。 所 描述 的 方法 在 什么 限制 条 件 下 (用 具有 相同 值 的 - 
元 组 所 占用 的 块 数 来 刻画 ) 将 不 再 需要 额外 的 磁盘 IO 呢 ? 


15.7 缓冲 区 管理 


我 们 已 经 假设 关系 上 的 操作 符 可 以 得 到 某 些 数量 的 内 存 缓冲 区 ， 它 们 可 以 用 来 存储 所 需 的 


数据 。 实 际 上 ， 这 些 缓冲 区 很 少 预 先 分 配给 操作 符 ， 并 且 M 的 值 将 依赖 于 系统 的 条 件 而 变化 。 
为 在 数据 库 上 查询 那样 的 处 理 过 程 提供 可 用 的 内 存 缓 促 区 ， 这 样 一 个 中 心 任务 就 交 给 缓冲 区 管 
理 嚣 了。 缓冲 区 管理 器 的 职责 是 使 处 理 过 程 得 到 它们 所 需 的 内 存 ， 并 且 尽 可 能 缩小 延迟 和 减少 


不 可 满足 的 要 求 。 缓 冲 区 管理 器 的 角色 在 图 1$-16 中 进行 了 说 明 。 
15.7.1 缓冲 区 管理 结构 

有 两 个 主要 的 缓冲 区 管理 结构 ; 

1. 在 大 多 数 关系 型 DBMS 中 ， 缓 冲 区 管理 器 直接 控制 主 存 ， 或 者 

2. 缓冲 区 管理 器 在 虚拟 内 存 中 分 配 缓冲 区 ， 人 允许 操作 系统 来 决定 哪些 缓冲 区 在 任何 时 候 都 
真正 在 主 存 中 以 及 哪些 缓冲 区 在 操作 系统 管理 的 磁盘 上 的 “交换 空间 ”中 。 许 多 “ 主 存 ”DBMS 
和 “面向 对 象 ” 的 DBMS 按 这 种 方式 操作 。 

不 管 DBMS 使 用 哪 种 方法 ， 都 会 引起 同样 
的 问题 : 缓冲 区 管理 器 应 当 限 制 使 用 的 缓冲 区 
数 使 得 它们 能 够 适合 内 存 的 容量 。 当 缓冲 区 管 
理 锅 直接 控制 主 存 ， 并 且 要 求 超过 了 可 得 到 的 
空间 时 ， 就 不 得 不 通过 将 缓冲 区 的 内 容 返回 到 
磁盘 上 来 清空 缓冲 区 。 如 果 缓 冲 的 块 没有 改变 ， 
就 简单 地 将 它 在 主 存 中 消除 掉 ， 但 如 果 块 已 经 
发 生 改 变 了 ， 它 就 必须 回 写 到 磁盘 它 自 己 的 位 
置 上 。 当 缓冲 区 管理 器 在 虚拟 内 存 中 分 配 空间 
时 ， 它 有 机 会 来 分 配 更 多 的 可 以 超过 内 存 容 量 
的 缓冲 区 。 但 是 ， 如 果 这 些 缓冲 区 都 真正 使 用 ， 
那 就 将 会 “ 颠 艇 ”， 这 是 一 个 操作 系统 常见 的 
问题 ， 即 有 许多 块 在 磁盘 交换 空间 移 进 移出 。 
在 这 种 情况 下 ， 系 统 花 费 大 部 分 时 间 来 交换 块 ， 





而 只 能 完成 很 少 的 有 用 工作 。 
通常 ， 当 DBMS 初 始 化 时 ， 缓 冲 区 的 数目 图 15-16 缓冲 区 管理 器 响应 内 存 
是 一 个 设置 的 参数 。 我 们 期 望 这 个 数目 设置 得 BRERA RR 


使 缓冲 区 占用 可 用 的 内 存 ， 而 不 管 缓冲 区 是 否 被 分 配 到 内 存 或 虚拟 内 存 。 在 下 面 的 讨论 中 ,我 
们 不 关心 采用 哪 种 缓冲 方式 ， 只 简单 地 假设 有 一 个 固定 的 缓冲 池 ， 即 查询 或 其 他 数据 库 操作 可 
用 的 缓冲 区 的 集合 。 










查询 处 理 的 内 存 管理 

我 们 假设 缓冲 区 管理 器 为 一 个 操作 符 分 配 1M 个 缓冲 区 ，M 的 大 小 依赖 于 系统 条 件 ( 包 
括 其 他 正在 处 理 中 的 操作 符 和 查询 ) 并 且 可 能 动态 地 变化 。 一 旦 操作 符 获得 了 1 个 缓冲 区 ， 
它 可 能 使 用 其 中 的 一 些 缓冲 区 来 调 入 磁盘 页 ， 另 一 些 用 于 索引 页 ， 还 有 一 些 用 于 排序 处 
理 或 散 列 表 。 在 某 些 DBMS 中 ， 内 看 并 不 是 仅仅 从 一 个 内 存 池 中 进行 分 配 ， 而 是 根据 不 同 
目的 设置 了 多 个 独立 的 内 存 池 ， 这些 内 存 池 拥有 独立 的 缓冲 管理 器 。 例如， 操作 符 可 能 
从 某 个 缓冲 池 中 分 配 了 DD 个 缓冲 区 用 于 保存 调 入 的 磁盘 页 ， 从 另 一 个 独立 的 内 存 区 分 配 了 
S 个 缓冲 区 用 于 排序 ， 以 及 末 个 缓冲 区 用 于 建立 散 列 表 。 这 种 技术 为 系统 配置 和 “调整 
(tuning ) ”提供 了 更 多 的 选择 ， 但 内 存 的 使 用 可 能 不 是 全 局 最 优 的 。 


15.7.2 组 冲 区 管理 策略 
缓冲 区 管理 必须 做 出 的 关键 的 选择 是 当 一 个 新 近 要 求 的 块 需要 一 个 缓冲 区 时 ， 应 该 将 什么 
块 竺 出 缓冲 池 。 从 其 他 的 诸如 操作 系统 的 调度 策略 中 ， 你 可 能 已 经 对 通常 使 用 的 缓冲 -- 蔡 换 策 
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[766] 赂 非常 熟悉 了 。 它 们 包括 ; 


。 最近 最 少 使 用 (LRU) 。LRU 规 则 是 丢 出 最 长 时 间 没 有 读 过 或 写 过 的 块 。 这 种 方法 要 求 组 
冲 区 管理 器 保持 一 张 表 明 每 个 缓冲 区 的 块 被 访问 的 最 后 一 次 时 间 的 表 。 它 还 要 求 每 个 数 
据 库 访问 在 这 个 表 中 生成 一 个 表 项 ， 这 样 在 保持 这 个 信息 的 过 程 中 有 了 一 个 有 意义 的 成 
果 。 但 是 ，LRU 是 一 个 有 效 的 策略 ; 直觉 上 ， 长 时 间 没 有 使 用 的 缓冲 区 比 那些 最 近 访问 
过 的 缓冲 区 有 更 小 的 最 近 访问 的 可 能 性 。 

。 先进 先 出 (FIFO) 。 在 FIFO 策 略 中 ， 当 需要 一 个 缓冲 区 时 ， 被 同一 个 块 占用 时 间 最 长 的 组 
冲 区 被 清空 ， 并 用 来 装 和 新 的 块 。 在 这 种 方法 中 ， 缓 促 区 管理 器 仅 需要 知道 当前 占用 一 
个 缓冲 区 的 块 装 入 缓冲 区 的 时 间 。 当 块 从 磁盘 读 人 内 存 的 时 候 ， 可 以 生成 表 中 的 一 个 表 
项 ， 且 当 块 被 访问 时 ， 不 需要 修改 这 个 表 。 与 LRU 相 比 ，FIFO 需 要 较 少 的 维护 ， 但 它 会 
造成 更 多 的 错误 。 被 重复 使 用 的 并 称 做 B 树 索引 的 根 块 的 块 ， 将 最 终 变 成 一 个 缓冲 区 中 
最 旧 的 块 。 它 将 被 写 回 到 磁盘 上 ， 很 快 又 被 重新 读 人 另 一 个 缓冲 区 。 

。 “时钟” 算法 。 这 个 算法 是 LRU 的 一 个 常用 的 、 有 效 的 近似 。 正 如 在 图 15-17 中 建议 的 ， 
将 缓冲 区 看 做 排 好 的 一 个 环 。 一 个 “指针 ” 器 
指向 这 些 缓冲 区 中 的 一 个 ， 如 果 想 找到 一 器 
个 缓冲 区 来 放置 一 个 磁盘 的 块 ， 就 按 顺 时 
针 旋转 。 每 一 个 缓冲 区 有 一 个 相应 的 “ 标 
志 ”， 它 或 者 是 9， 或 者 是 1。 带 有 0 标志 的 国 [o] 
缓冲 区 容易 被 选中 ， 将 其 内 容 写 回 磁盘 
具有 1 标志 的 缓冲 区 就 不 是 。 当 一 个 块 读 进 加 
缓冲 区 时 ， 它 的 标志 就 设 为 1。 同 样 ， 当 组 
冲 区 的 内 容 被 访问 过 后 ， 它 的 标志 也 设 为 1。 

当 缓冲 区 管理 器 需要 为 一 个 新 块 分 配 缓冲 图 15-17 时 钟 算法 按 轮转 方式 访问 缓冲 区 ， 
区 时 ， 就 按照 顺 时 针 旋转 ， 查 找 能 够 找到 营 换 掉 第 一 个 具有 0 标志 的 缓冲 区 

的 第 一 个 0。 如 果 它 通过 标志 1 的 缓冲 区 ， 就 将 它 设 为 0。 这 样 ， 如 果 一 个 缓冲 区 从 指针 执 
行 一 个 完全 的 旋转 并 将 它 的 标志 置 为 0， 到 接着 再 做 另 一 个 完整 旋转 来 找 没有 改变 的 带 标 
志 0 的 缓冲 区 为 止 ， 都 保持 没有 被 访问 ， 那 么 这 个 块 被 于 出 缓冲 区 。 举 例 来 说 ， 见 图 15- 
17， 指 针 将 把 它 左边 的 缓冲 区 由 1 置 为 0， 再 顺 时 针 移动 ， 找 到 带 0 的 缓冲 区 ， 它 的 块 将 被 
替换 ， 标 志 将 被 置 为 1。 









使 用 时 钟 算法 的 进一步 的 技巧 

选择 要 释放 掉 的 缓冲 区 的 “时 钟 ”算法 并 不 局 限于 第 15.7.2 节 所 描述 的 ， 标 志 取 值 为 
0 和 1 的 模式 。 例 如 ， 对 于 一 个 重要 的 页 面 ， 在 开始 时 可 以 赋予 它 一 个 大 于 1 的 数字 作为 标 
志 ， 然 后 每 当 “ 指 针 ” 经 过 这 个 页 面 时 ， 标 志 的 值 就 减 1。 事 实 上 ， 被 钉 住 的 块 的 概念 可 
以 通过 如 下 的 方法 来 具体 实现 ; 赋予 被 箱 住 的 块 一 个 无 限 大 的 值 作 为 标志 ， 然 后 当 系 统 
在 适当 的 时 机 要 释放 被 钉 住 的 块 时 ， 将 它 的 标志 置 为 0 就 可 以 了 。 


“系统 控制 。 查 询 优化 器 或 者 其 他 的 DBMS 部 件 可 以 给 缓冲 区 管理 器 提供 建议 来 避免 像 
LRU、FIFO 或 者 时 钟 这 样 的 严格 的 策略 引起 的 错误 。 回 忆 一 下 12.3.5 节 ， 有 时 候 内 存 中 
的 一 些 抉 如 果 不 首先 修改 某 些 其 他 的 指向 它 的 块 就 不 能 移 到 磁盘 上 ， 这 是 某 些 技术 原因 
造成 的 。 这 些 块 叫做 “固定 的 "， 任 何 缓冲 区 管理 器 都 不 得 不 修改 缓冲 替代 策略 来 避免 驱 
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除 男 定 的 块 。 这 个 事实 给 了 我 们 机 会 ， 通 过 将 其 他 的 块 定 义 为 “固定 的 ”来 强迫 它们 保 

持 在 内 存 中 ， 即 便 是 没有 不 能 写 到 磁盘 上 的 技术 原因 。 举 例 来 说 ， 对 于 上 面 提 到 的 关于 

B 树 的 根 的 问题 的 一 个 补救 是 “固定 ” 根 ， 强 迫 它 在 任何 时 候 都 保持 在 内 存 中 。 同 样 ， 

对 于 像 一 趟 散 列 一 连接 那样 的 算法 ， 查 询 处 理 器 可 以 “固定 ” 较 小 的 关系 的 块 ， 确 保 在 

全 部 时 间 内 它 都 留 在 内 存 中 。 

15.7.3 物理 操作 符 选 择 和 缓冲 区 管理 的 关系 

查询 优化 器 将 最 终 选 择 一 个 用 来 执行 给 定 查询 的 物理 操作 符 的 集合 。 物 理 操作 符 的 选择 可 
以 假设 能 得 到 执行 每 一 个 操作 符 所 需 的 一 定数 目的 缓冲 区 M。 但 是 ， 就 像 我 们 已 经 看 到 的 ， 当 
执行 查询 时 ,缓冲 区 管理 器 不 打算 或 不 能 够 保证 它 能 得 到 这 MM 个 缓冲 区 。 于 是 ， 关 于 物理 操作 
符 ， 有 如 下 两 个 相关 的 问题 要 问 : 

1. 这 个 算法 能 够 适应 可 得 到 的 内 存 缓冲 区 数目 M 的 值 的 变化 吗 ? 

2. 当 不 能 够 得 到 所 期 望 的 WM 个 缓冲 区 ， 并 且 期 望 留 在 内 存 中 的 块 实际 上 已 被 缓冲 区 管理 器 
移 到 了 磁盘 上 时 ， 缓 冲 区 管理 器 使 用 的 缓冲 区 替换 策略 是 怎样 影响 必须 执行 的 额外 的 磁盘 IO 
数量 的 ? 

例 15.16 作为 这 个 问题 的 一 个 例子 ， 让 我 们 考虑 图 15-8 中 基于 块 的 嵌 套 循环 连接 。 基 本 的 
算法 不 真正 依赖 于 W 的 值 ， 尽 管 它 的 性 能 依赖 于 M。 这 样 ， 在 执行 开始 前 找 出 1 的 值 就 足够 了 。 

甚至 于 M 有 可 能 在 不 同 的 外 循环 迭代 中 将 会 发 生 改变 。 也 就 是 说 ， 每 次 将 关系 5S( 外 循环 的 
关系 ) 的 一 部 分 装 人 内 存 时 ， 我 们 可 以 使 用 除了 一 个 以 外 的 所 有 可 用 的 缓冲 区 ; 保留 的 缓冲 区 
是 留 给 R 的 块 的 ，R 是 内 循环 中 的 关系 。 这 样 ， 我 们 执行 外 循环 的 次 数 依 赖 于 每 一 次 迭代 可 用 
的 缓冲 区 个 数 的 平均 数 。 但 是 ， 只 要 平均 有 MM 个 缓冲 区 可 用 ， 那 么 就 15.3.4 节 分 析 的 代价 就 成 
立 。 在 极端 情况 下 ， 我 们 可 能 有 幸 在 第 一 次 迭代 就 找到 足够 的 可 用 缓冲 区 来 装 人 $ 所 有 的 内 容 ， 
在 这 种 情况 下 ， 欠 套 循环 连接 就 变 成 了 15.2.3 节 的 一 趟 连接 。 

如 果 在 外 循环 的 一 次 迭代 上 固定 用 于 5 的 M - 1 个 块 ， 那 么 在 运行 中 就 不 会 失去 它们 的 缓冲 
区 。 田 一 方面 ， 在 那 次 迭代 中 ， 可 能 会 有 更 多 的 缓冲 区 变 为 可 用 。 这 些 缓冲 区 允许 R 的 多 于 一 
个 的 块 同时 保存 在 内 存 中 ， 但 除非 我 们 很 仔细 ， 否 则 额外 的 缓冲 区 将 不 会 改善 钥 套 循环 连接 的 
运行 时 间 。 

举 个 例子 ,假设 我 们 使 用 LRU 缓 冲 区 替换 策略 ， 并 且 有 x 个 可 用 的 缓冲 区 来 容纳 R 的 块 。 当 
我 们 依次 读 R 的 块 的 时 候 ， 在 外 循环 这 次 迭代 的 最 后 留 在 缓冲 区 中 的 块 将 是 R 的 最 后 k 个 块 。 我 
们 接着 往 $ 的 M - 1 个 缓冲 区 中 装 人 Ss 的 新 块 ， 并 且 开 始 在 外 循环 的 下 一 次 迭代 中 再 次 读 R 的 块 。 
但 是 ， 如 果 再 次 从 R 的 头 开始 ，R 的 x 个 缓冲 区 将 需要 替换 ， 我 们 不 能 仅仅 因为 fs1 就 节省 磁盘 
VO 数量 。 

嵌 套 循环 连接 的 一 个 较 好 的 实现 将 按照 一 个 交替 的 序列 来 访问 R 的 块 : 第 一 到 最 后 ， 再 最 
后 到 第 一 个 。 在 这 种 方式 下 ， 如 果 R 有 Kk 个 可 用 的 缓冲 区 ， 我 们 将 在 外 循环 的 每 次 迭代 中 (第 一 
次 除外 ) 节省 k 次 磁盘 1/O 数 目 。 也 就 是 说 ， 第 二 次 和 后 续 的 迭代 对 R 仅 需要 BC(R) - k 次 磁盘 1/0。 
注意 ， 即 便 k =1( 也 就 是 说 ， 对 R 没 有 额外 的 缓冲 区 ) ， 我 们 也 能 每 次 迭代 节省 一 次 磁盘 1/JO。 O 


其 他 的 算法 也 受到 M 可 以 变化 的 事实 和 缓冲 区 管理 器 使 用 的 缓冲 区 替换 策略 的 影响 。 下 面 
是 一 些 有 用 的 经 验 。 

© 如 果 对 一 些 操作 符 使 用 基于 排序 的 算法 ， 那 么 适应 M 的 变化 是 可 能 的 。 如 果 M 减 少 ， 我 

们 可 以 改变 子 表 的 大 小 ， 因 为 我 们 讨论 的 基于 排序 的 算法 不 依赖 于 同样 大 小 的 子 表 。 主 

要 的 局 限 是 当 M 减 小 时 ， 我 们 被 迫 不 得 不 建立 许多 子 表 ， 使 得 在 合并 过 程 中 ， 我 们 不 可 
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BEA — Th FRET 
“ 子 表 的 内 存 排序 可 以 由 许多 不 同 的 算法 来 实现 。 由 于 像 归 并 排序 和 快速 排序 等 算法 是 递 
归 的 ， 所 以 大 多 数 时 间 内 都 只 占用 内 存 很 小 的 区 域 。 这 样 ， 不 论 是 LRU 还 是 FIFO ， 基 于 
排序 的 算法 的 这 一 部 分 都 将 运行 得 很 好 。 
。 如 果 算 法 是 基于 散 列 的 ， 且 M 减 少 ， 我们 可 以 减少 桶 的 数目 ， 只 要 桶 不 会 变 得 太 大 以 至 
于 它们 不 能 装 入 分 配 的 内 存 。 但 是 ， 与 基于 排序 的 算法 不 同 ， 当 算法 运行 时 ， 我们 不 能 
对 M 的 变化 做 出 反应 。 一 旦 桶 的 数目 选 定 了 ， 在 整个 第 一 趟 中 ， 它 都 保持 固定 的 数目 。 
如 果 缓 冲 区 变 为 不 可 用 了 ， 则 属于 某 些 桶 的 块 将 不 得 不 被 交换 出 去 。 
15.7.4 习题 
习题 15.7.1 ”假设 我 们 想 执行 连接 Rm 5S， 可 用 的 内 存在 M MMSE. KEM., BR) 
和 B(S)， 给 出 保证 下 面 算 法 可 以 执行 的 条 件 : 
* a) 一 趟 连接 。 
* b) 两 趟 的 基于 散 列 的 连接 。 
c) 两 趟 的 基于 排序 的 连接 。 
! 习题 15.7.2 ”如 果 额 外 的 缓冲 区 可 用 ， 并 且 是 下 面 的 缓冲 区 替代 策略 ， 那 么 典 套 循环 连接 
的 磁盘 IO 数目 将 怎样 改进 : 
a) 先进 先 出 。 
b) 时 钟 算法 。 
! 习题 15.7.3 在 例 15.16 中 ， 我 们 表明 了 利用 额外 的 缓冲 区 的 可 能 ， 方 法 是 缓冲 存储 R 的 不 
止 一 个 块 和 在 外 部 循环 中 偶数 地 和 迭代 上 按照 反 序 访 问 R 的 块 。 但 是 ， 还 可 以 为 仅 为 R 保 持 
一 个 缓冲 区 并 增加 供 $ 使 用 的 缓冲 区 数目 。 哪 一 个 策略 产生 最 小 的 磁盘 IO 数量 ? 


15.8 使 用 超过 两 趟 的 算法 


虽然 两 趟 对 于 除了 最 大 的 关系 外 的 所 有 关系 上 的 操作 已 经 足够 了 ， 但 我 们 应 当 看 出 ，15.4 
节 和 15.5 节 讨论 的 主要 的 技术 ， 通 过 对 算法 进行 推广 ， 根 据 需 要 使 用 多 趟 ， 就 可 以 处 理 任意 大 
小 的 关系 。 在 本 节 中 ， 我 们 将 考虑 基于 排序 的 和 基于 散 列 的 方法 的 推广 。 
15.8.1 基于 排序 的 多 趟 算法 

在 11.4.5 节 中 ， 我 们 提 到 了 怎样 将 两 阶段 多 路 归并 排序 扩展 成 三 趟 算法 。 事 实 上 ， 有 一 个 
简单 的 递归 排序 方法 ， 它 允许 我 们 不 管 关 系 多 么 大 ， 都 能 完整 地 排序 ， 或 者 如 果 我 们 愿意 ,对 
任意 给 定 的 x"， 可 以 建立 n 个 排序 的 子 表 。 

假设 我 们 有 M 个 可 用 的 内 存 缓冲 区 来 对 关系 R 排 序 ， 并 假设 R 是 按照 聚 筷 存 储 的 。 那 么 ， 按 
如 下 方式 做 : . 

基础 : 如 果 R 可 装 和 人 MM 个 块 中 (也 就 是 说 ，B(R)<M) ， 那 么 将 R 读 人 内存， 使 用 你 最 喜爱 的 
排序 算法 来 把 它 排序 ， 并 将 排 好 序 的 关系 写 到 磁盘 上 。 

归纳 ;如果 R 不 能 装 和 内存， 将 R 的 块 分 成 M 个 组 ， 称 做 RI, R; ,…,Ru。 对 每 个 i=1,2,…,M， 
递归 地 将 R 排 序 。 接 着 , 像 11.4.4 节 那样 ， 将 M 个 排序 的 子 表 合并 。 

如 果 不 仅 仅 对 R 排 序 ， 而 是 要 在 R 上 执行 一 个 一 元 操作 ， 如 y 或 8， 那么 修改 上 面 的 算法 ， 
使 得 在 最 后 的 归并 中 ， 我 们 在 排序 子 表 的 前 端的 元 组 上 执行 操作 。 即 

“ 对 于 5， 输 出 每 一 个 不 同 元 组 的 一 个 副本 ， 并 跳 过 这 个 元 组 的 其 他 副本 。 

“ 对于， 仅 在 分 组 属性 上 排序 ， 然 后 像 在 15.4.2 节 讨论 的 一 样 ， 将 在 分 组 属性 上 具有 一 个 
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给 定 值 的 那些 元 组 以 适当 的 方式 结合 。 

当 我 们 想 执行 一 个 二 元 操作 的 时 候 ， 比 如 交 或 连接 ， 我 们 基本 上 使 用 同样 的 思想 ， 所 不 同 
的 只 是 这 两 个 关系 首先 分 成 总 数 为 M 的 子 表 。 然 后 ， 每 一 个 子 表 通 过 上 面 的 递归 算法 排序 。 最 
后 ， 我 们 读 M 个 子 表 中 的 每 一 个 ， 将 每 一 个 放 人 一 个 缓冲 区 ， 并 且 按 照 15.4 节 相应 部 分 描述 的 
方式 来 执行 操作 。 

我 们 可 以 按照 我 们 的 愿望 将 M 个 缓冲 区 在 关系 R 和 5 之 间 分 开 。 但 是 , 为 了 使 总 的 趟 数 最 少 ， 
我 们 通常 根据 关系 的 块 数 ， 按 比例 地 划分 缓冲 区 。 也 就 是 说 ，R 得 到 缓冲 区 的 M x 
B(R)A(B(R)+B(S))，5S 得 到 剩余 部 分 。 

15.8.2 基于 排序 的 多 趟 算法 的 性 能 

现在 ， 让 我 们 探讨 所 需 的 磁盘 IO 数目 、 被 操作 的 关系 大 小 和 内 存 大 小 之 间 的 关系 。 令 
5s(M,) 是 我 们 使 用 M 个 缓冲 区 和 k 赵 能 排序 的 最 大 的 关系 的 大 小 。 那 么 我 们 可 以 按照 下 面 的 方法 
itHs(M, k): 

基础 : 如 果 好 1， 即 允许 进行 一 趟 ， 那 么 我 们 有 BR) <M, RAB, sM, 1)=M. 

归纳 : 假设 :>1。 那 么 我 们 将 R 分 成 M 片 ， 每 一 片 必须 是 通过 x - 1 趟 可 排序 的 。 如 果 
B(R)=s(M, k)， 那 么 R 的 M 个 片 的 每 一 片 的 大 小 s(M,k)/M， 不 能 超过 s(M, k-1). ED: 
s(M, k)=Ms(M, k-1). 

如 果 我 们 展开 上 面 的 递归 ， 会 发 现 

s(M, k)=Ms(M, k-1)=M?s(M, k-2)=-- =Mt-1s(M, 1) 

既然 SM，1) = M， 我 们 得 出 结论 sx ，J)= Me。 也 就 是 说 ， 如 果 B(R)<s(M， 月 ， 即 BR) 苹 
M:， 那 么 通过 x 趟 ,我们 可 以 将 关系 R 排 序 。 换 句 话 说 ， 如 果 我 们 想 在 4 赵 中 将 R 排 序 ， 那 么 可 
以 使 用 的 缓冲 区 的 最 小 数目 是 M=(BCR))。 

排序 算法 的 每 一 趟 从 磁盘 上 读 取 所 有 数据 并 再 将 它们 写 回 。 这 样 ， 一 个 k 趟 排序 算法 需要 
2KB(R) 个 磁盘 IO。 

现在 ， 让 我 们 将 多 趟 连接 R(X, 了 mx S(Y，Z) 作为 关系 上 二 元 操作 的 代表 ， 考 虑 它 的 代价 。 
令 KM，D 是 在 k 趟 中， 使 用 M 个 缓冲 区 的 最 大 的 块 数 ， 即 我 们 可 以 连接 关系 中 的 块 的 总 数 等 于 
或 小 于 XM， 有 D。 也 就 是 说 ， 如 果 B(R)+B(5) 志 ji(M， 有 加 ， 连 接 就 可 以 实现 。 

最 后 一 趟 中 ， 我 们 归并 两 个 关系 的 M 个 排序 的 子 表 。 每 个 子 表 是 使 用 上 - 1 趟 排序 的 ， 所 以 
它们 中 的 每 一 个 的 大 小 都 不 会 超过 s(M， k-1)=Mt-), REM AA EMS(M, K-1) =Me， 即 
B(R) +B(S) KERIM, RERA, (M, h- M. WASKHA, REET LERH 
FE Beis 2 (B(R)+B(S))! EE, 

为 了 计算 多 趟 算法 所 需 的 磁盘 IO 数量 ， 我 们 应 当 记 住 ， 不 像 排 序 那 样 ， 我 们 不 统计 为 连 
接 或 其 他 关系 操作 将 最 终结 果 写 到 磁盘 上 的 代价 。 这 样 ， 我 们 使 用 2 - 1)(BCR)+B(5)) 个 磁盘 
IO 来 将 子 表 排 序 ， 另 外 ，B(CR)+B(S) 个 磁盘 UO 在 最 后 一 趟 中 读 取 排序 的 子 表 。 最 后 的 结果 是 总 
FE(2k - 1)(B(R)+B(S) 个 磁盘 IO。 

15.8.3 基于 散 列 的 多 趟 算法 

对 于 大 关系 上 的 操作 ， 有 一 个 递归 地 使 用 散 列 的 方法 。 我 们 将 一 个 或 两 个 关系 散 列 到 M - 
1 个 桶 中 ，W 是 可 用 的 内 存 缓冲 区 的 数目 。 对 于 一 元 操作 ， 我 们 再 将 操作 分 别 应 用 到 每 一 个 桶 。 
如 果 操 作 是 二 元 的 ， 比 如 连接 , 我 们 将 操作 应 用 到 每 一 对 相应 的 桶 上 ， 就 像 它们 是 整个 的 关系 。 
对 于 我 们 已 经 考虑 的 普通 的 关系 操作 一 一 消除 重复 、 分 组 、 并 、 交 、 差 、 自 然 连接 和 等 值 连 
接 -一 在 整个 关系 上 操作 的 结果 将 是 桶 上 结果 的 并 集 。 我 们 可 以 递归 地 将 这 个 方法 描述 为 : 
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基础 : 对 于 一 元 操作 ， 如 果 关 系 能 装 到 M 个 缓冲 区 中 ， 就 将 它 读 人 内 存 并 执行 操作 。 对 于 
二 元 操作 ， 如 果 有 一 个 关系 能 装 到 M - 1 个 缓冲 区 中 ， 就 将 这 个 关系 读 人 内 存 ， 再 将 第 二 个 关 
系 一 次 一 块 地 装 人 第 M 个 缓冲 区 ， 这 样 来 执行 操作 。 

归纳 : 如 果 没 有 一 个 关系 能 够 装 和 内存， 那么 就 像 15.5.1 节 中 所 讨论 的 ， 将 每 个 关系 散 列 
到 M - 1 个 桶 中 。 在 每 个 桶 上 或 每 个 相应 的 桶 对 上 递归 地 执行 操作 ， 并 将 每 个 桶 或 桶 对 的 输出 
15.8.4 基于 散 列 的 多 趟 算法 的 性 能 

在 下 面 ， 我 们 将 做 一 个 假设 ， 即 当 散 列 一 个 关系 时 ， 要 将 元 组 尽 可 能 平均 地 分 到 桶 中 。 事 
实 上 ， 如 果 我 们 选择 一 个 真正 随机 散 列 的 函数 ， 将 会 近似 地 符合 这 个 假设 ,但 在 将 元 组 分 布 到 
桶 的 过 程 中 总 会 有 某 些 不 均衡 。 

首先 ， 考虑 一 个 一 元 操作 ， 例 如 关系 R 上 使 用 M 个 缓冲 区 的 7 或 5。 令 ulM, HEROIN 
能 够 处 理 的 最 大 的 关系 的 块 数 。 我 们 可 以 通过 如 下 方式 递归 地 定义 4: 

基础 : u(M,1)=M， 因 为 关系 R 必 须 能 装 人 到 M 个 缓冲 区 中 ， 也 就 是 说 ，B(R) <M. 

归纳 : 假设 第 一 步 将 R 分 到 M - 1 个 大 小 相等 的 桶 中 。 这 样 ， 我 们 可 以 按照 如 下 方式 计算 
u(M,k)。 为 下 一 趟 准备 的 桶 必须 足够 小 ， 使 得 它们 能 够 在 k - 1 趟 中 处 理 ; 即 ， 桶 的 大 小 是 
u(M,k 一 1)。 既 然 R 被 分 到 M-~1 个 桶 中 ， 那 么 我 们 必定 有 uM k) = (M- 1)u(M, k- 1)。 

如 果 展 开 上 面 的 递归 ， 我 们 会 发 现 u(M,k)=M(M - 1)*-!， 或 者 近似 地 ， 假 设 M 很 大 ， 
u(M,k)=Mrt。 换 旬 话 说 ， 如 果 M <(B(R))*， 我 们 可 以 用 M 个 缓冲 区 经 过 k 趟 来 执行 关系 R 上 的 一 
元 关系 操作 。 

我 们 可 以 为 二 元 操作 做 一 个 简单 的 分 析 。 就 像 在 15.8.2 节 一 样 ， 让 我 们 考虑 连接 。 令 
J M, 有) 是 R(X, 了 ) SY, Z) 涉 及 的 两 个 关系 R 和 S 中 较 小 者 的 大 小 的 上 限 。 这 里 ， 就 像 以 前 一 样 ， 
M 是 可 用 的 缓冲 区 的 数目 ，k 是 我 们 可 以 使 用 的 趟 数 。 

基础 : iM,1)=M - 1; 也 就 是 说 , 像 我 们 在 15.2.3 节 讨论 的 ， 如 时 我 们 使 用 一 趟 算法 来 连接 ， 
那么 或 者 R 或 者 5 一 定 能 够 装 入 M - 1 个 块 中 。 

归纳 ; j(M, k)=(M-1)j(M,k-1); 也 就 是 说 ， 在 k 趟 的 第 一 趟 中 ， 可 以 将 每 一 个 关系 分 到 
M1 个 桶 中 ， 我 们 可 能 期 望 每 个 桶 是 整个 关系 的 LM - D)， 但 我 们 必须 能 够 在 M - 1 趟 中 连接 
每 一 个 相应 的 桶 对 。 

通过 展开 j(M,A) 的 循环 ， 我们 得 到 结论 i(M,A)=(M - 1)。 再 次 假设 M 很 大 ， 我 们 可 以 近似 地 
说 j(M,)= M*。 也 就 是 说 ， 如 果 M* 汪 min(B(R),B(5))， 我 们 可 以 使 用 k 趟 和 M 个 缓冲 区 来 连接 
R(X,¥)>4 S(Y,D) 

15.8.5 习题 
习题 15.8.1 设 B(R)=20 000, B(S)=50 000， 并 且 M=101。 描 述 下 面 计算 Rea 5 的 算法 的 执 
行 。 

* a 基于 排序 的 三 趟 算法 。 

b) 基于 散 列 的 三 趟 算法 。 
习题 15.8.2 ”有 几 个 我 们 已 经 讨论 过 的 用 来 提高 两 趟 算法 性 能 的 “技巧 *。 辨 别 下 面 的 技巧 
是 否 可 以 用 于 多 趟 算法 ， 如 果 可 以 ， 怎 样 用 ? 

a) 15.5.6 节 的 混合 散 列 -连接 技巧 。 

b) 通过 在 磁盘 上 连续 地 存储 块 ( 15.5.7 节 ) 来 改善 基于 排序 的 算法 。 

c) 通过 在 磁盘 上 连续 地 存储 块 (15.5.7 节 ) 来 改善 基于 散 列 的 算法 。 
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15.9 关系 操作 的 并 行 算法 


数据 库 操 作 经 常 大 量 消耗 时 间 并 且 涉 及 大 晤 数据 ， 因 而 通常 采用 并 行 处 理 。 在 本 节 中 ,我 
们 将 回顾 并 行 机 的 基本 结构 。 然 后 ， 我 们 再 集中 在 “无 共享 ”结构 上 ， 尽 管 它 不 比 其 他 的 并 行 
应 用 更 优越 ， 但 它 表 现 出 对 数据 库 操作 是 最 有 效 的 。 对 于 大 多 数 关系 数据 库 操作 的 标准 算法 的 
一 个 简单 修改 将 能 够 极 好 地 利用 并 行 机 制 。 也 就 是 说 ， 在 一 台 p 个 处 理 器 的 机 器 上 完成 一 项 操 
作 的 时 间 大 约 是 在 一 个 单 处 理 器 机 器 上 完成 该 操作 的 时 间 的 1/p。 

15.9.1 并 行 模型 

所 有 并 行 机 的 核心 都 是 一 个 处 理 器 的 集合 。 处 理 器 的 数量 p 经 常 是 很 大 的 ， 成 百 上 千 。 假 
设 每 个 处 理 器 有 它 自己 的 局 部 高 速 缓存 ， 这 在 
图 15-18 中 没有 明确 显示 。 在 大 多 数 的 组 织 结构 
中 ， 每 个 处 理 器 还 有 局 部 内 存 ， 我 们 已 经 标明 
了 。 对 数据 库 处 理 极其 重要 的 是 还 有 连同 这 些 
处 理 器 一 起 的 许多 磁盘 ， 可 能 每 个 处 理 器 有 一 
个 或 多 个 ， 或 者 在 某 些 结构 中 ， 所 有 的 处 理 器 
可 以 直接 访问 一 个 大 的 磁盘 集合 。 

另外 ， 并 行 计算 机 都 有 某 些 在 处 理 器 之 间 
传送 信息 的 通信 设备 。 在 我 们 的 图 中 ， 显 示 的 
通信 方式 好 像 对 于 所 有 的 机 器 部 件 都 有 一 个 共 
享 的 总 线 。 但 是 ， 实 际 上 在 最 大 的 机 器 中 ， 总 
线 不 能 连接 所 有 的 处 理 器 或 其 他 部 件 ， 因 此 在 图 15-18 一 台 共 享 内 存 的 机 器 
许多 结构 中 ， 互 连 系统 是 一 个 强大 的 交换 机 ， 辅 之 以 在 局 部 篆 中 连接 处 理 器 子 集 的 总 线 。 

并 行 机 的 三 个 最 重要 的 类 是 ， 

1. 共享 内 存 。 在 图 15-18 描 述 的 结构 中 ， 每 一 个 处 理 器 可 以 访问 所 有 处 理 器 的 所 有 内 存 。 
也 就 是 说 ， 对 整个 机 器 ， 有 一 个 单一 的 物理 地 址 空间 ， 而 不 是 每 个 处 理 器 一 个 地 址 空间 。 图 
15-18 实 际 上 太极 端 ， 它 表明 每 个 处 理 器 根本 没有 私有 的 内 存 。 每 个 处 理 器 应 当 有 某 些 局 部 的 、 
能 单独 使 用 的 内 存 。 但 是 ， 当 需要 时 ， 它 可 以 直接 访问 其 他 处 理 器 的 内 存 。 这 一 类 的 大 型 机 
NUMA (nonuniform memory access) 类 型 ， 这 意味 着 一 个 处 理 器 访问 “属于 ”其 他 处 理 器 内 
存 的 数据 所 花 的 时 间 在 一 定 程度 上 多 于 访问 它 “ 自 己 ”的 内 存 或 它 的 局 部 簇 中 处 理 器 内 存 的 
时 间 。 但 是 ， 当 前 结构 中 内 存 访 问 时 间 的 差异 
并 不 大 。 相 反 ， 不 管 数 据 在 哪里 ， 内 存 访问 的 
时 间 都 远 远大 于 高 速 缓存 的 访问 时 间 ， 因 此 关 
键 的 问题 是 ， 处 理 器 所 需 的 数据 是 否 在 它 自己 
的 高 速 缓存 中 。 

2. 共享 磁盘 。 在 图 15-19 所 示 的 结构 中 ， 
每 一 个 处 理 器 都 有 它 自 己 的 内 存 ， 其 他 的 处 理 
器 不 能 直接 地 访问 到 。 但 是 ， 磁 盘 可 以 由 任何 
一 个 处 理 器 通过 通信 网 络 访问 到 。 磁 盘 控制 器 
管理 来 自 不 同 处 理 器 的 潜在 的 竞争 需求 。 磁 盘 
和 处 理 器 的 数目 不 必 像 图 15-19 所 示 的 那样 是 图 15-19 一 台 共 享 磁盘 的 机 器 
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相同 的 。 

3. 无 共享 。 如 图 15-20 所 示 ， 所 有 的 处 理 器 都 有 它们 自己 的 内 存 和 一 个 或 多 个 磁盘 。 所 有 
的 通信 都 经 过 从 处 理 器 到 处 理 器 的 通信 了 网络。 举例 来 说 ， 如 果 一 个 处 理 器 P 想 从 另 一 个 处 理 器 
8 的 磁盘 上 读 元 组 ,那么 处 理 器 P 向 Q@ 发 请 求 数据 的 消息 。 接 着 ，Q 从 它 的 磁盘 上 获得 元 组 ， 并 
用 另 一 条 消息 把 它们 通过 网 络 发 送 给 P。 





图 15-20 一 台 无 共享 的 机 器 


就 像 我 们 在 本 节 引 言 中 提 到 的 ， 无 共享 的 体系 结构 是 “数据 库 机 ”最 常用 的 结构 。 数 据 库 
机 是 为 支持 数据 库 而 专门 设计 的 并 行 计 算 机 。 无 共享 机 器 的 建造 是 相对 便宜 的 ， 但 是 我 们 为 这 
些 机 器 设计 算法 的 时 候 ， 必 须 注意 从 一 个 处 理 器 到 另 一 个 处 理 器 发 送 数据 的 代价 是 很 高 的 。 

通常 ， 数 据 必须 在 处 理 器 之 间 的 消息 中 发 送 ， 这 需要 可 观 的 系统 开销 。 两 个 处 理 器 必须 都 
执行 一 个 支持 消息 传送 的 程序 ， 这 里 会 有 一 个 与 通信 网络 相关 的 竞争 或 延迟 。 消 息 的 代价 通常 
可 以 被 分 为 一 个 大 的 固定 的 系统 开销 加 上 每 个 字 节 传送 的 少量 的 时 间 。 这 样 ， 设 计 一 个 并 行 算 
法 使 得 在 处 理 器 之 间 的 通信 和 包括 大 数据 量 的 发 送 将 很 有 益处 。 举 例 来 说 ， 我 们 可 将 处 理 器 P 中 
将 要 发 送 到 处 理 器 C 的 数据 的 若干 个 块 进行 缓冲 。 如 果 C 不 立即 需要 数据 ， 那 么 等 待 直到 我 们 
在 P 有 一 个 长 消息 ,再 将 它 发 到 Q， 这 将 是 非常 有 效 的 。 


其 他 并 行 结构 上 的 算法 

就 像 无 共享 的 机 器 一 样 ， 共 享 磁盘 的 机 器 也 喜欢 长 消息 。 如 果 所 有 的 通信 都 经 过 一 
个 磁盘 ， 那 么 我 们 需要 移动 块 中 的 数据 。 如 果 我 们 可 以 组 织 将 被 移动 的 数据 ， 即 它们 都 
在 一 个 磁道 或 一 个 磁 柱 面 上 ， 那 么 就 像 11.5.1 节 中 讨论 的 一 样 ， 我 们 可 以 节省 许多 延迟 。 

另 一 方面 ， 共 享 内 存 的 机 器 允许 在 两 个 处 理 器 这 闻 通 过 内 看 来 进行 通信 。 这 里 没有 
发 送 消息 所 需 的 广泛 适用 的 软件 ， 读 或 写 内 存 的 代价 与 包含 的 字 节 数 成 比例 。 这 样 ， 共 
享 内 存 的 机 器 将 能 够 有 效 利 用 处 理 器 之 间 所 需 的 快速 、 顺 畅 和 简洁 的 通信 的 算法 。 有 趣 
的 是 ， 昌 然 这 样 的 算法 在 其 他 领域 已 有 了 ， 但 数据 库 处 理 看 起 来 不 需要 这 样 的 算法 。 


15.9.2 一 次 一 个 元 组 的 并 行 操作 

通过 考虑 选择 操作 符 来 开始 无 共享 机 的 并 行 算法 的 讨论 。 首 先 ， 我 们 必须 考虑 怎样 最 好 地 
存储 数据 。 就 像 首先 在 11.5.2 节 中 建议 的 ， 将 数据 分 布 到 尽 可 能 多 的 磁盘 上 将 是 很 有 用 的 。 为 
了 方便 ， 我 们 将 假设 一 个 处 理 器 只 有 一 个 磁盘 。 那 么 如 果 有 P 个 处 理 器 ， 就 将 任意 一 个 关系 及 
的 元 组 平均 地 分 到 p 个 处 理 器 的 磁盘 上 。 

假设 我 们 想 执行 cc(R)。 我 们 可 以 使 用 每 一 个 处 理 器 来 检查 分 布 在 它 自 己 的 磁盘 上 的 元 组 。 
每 一 个 处 理 器 找到 满足 C 条 件 的 元 组 ， 并 将 它们 复制 到 输出 。 为 了 避免 处 理 器 之 间 的 通信 ， 我 
们 将 cc(R) 中 的 元 组 :存储 到 那些 磁盘 上 有 + 的 处 理 器 中 。 这 样 ， 关 系 ac(R) 的 结果 就 像 R_ 样 分 
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布 在 各 个 处 理 器 上 。 

因为 Gc(R) 可 以 是 另 一 个 操作 的 输入 关系 ， 并 且 我 们 希望 使 空闲 时 间 最 小 在 任何 时 间 都 让 
所 有 的 处 理 器 保持 繁忙 ， 因 此 我 们 希望 将 Gec(R) 平 均 地 分 到 各 个 处 理 器 中 。 如 果 我 们 是 在 做 一 
个 投影 ， 而 不 是 选择 ， 那 么 每 个 处 理 器 上 nA(R) 中 元 组 的 数目 与 处 理 器 上 R 的 元 组 的 数目 相同 。 
这 样 ， 如 果 R 是 平均 分 布 的 ， 那 么 它 的 投影 也 是 平均 分 布 的 。 但 是 ， 与 R 的 分 布 相 比 ， 选 择 将 
大 大 改变 结果 中 元 组 的 分 布 。 

例 15.17 设 选 择 是 G66.io(R)， 即 ， 找 出 R 中 所 有 属性 a (假设 是 R 的 一 个 属性 ) 的 值 是 10 的 元 
组 。 还 假设 我 们 已 经 按照 属性 a 的 值 将 R 进行 了 划分 。 那 么 所 有 具有 a=10 的 元 组 在 一 个 处 理 
器 上 ， 并 且 整 个 的 关系 a-io(R) 就 在 一 个 处 理 器 上 。 O 


为 了 避免 例 15.17 表 明 的 问题 ， 我 们 需要 仔细 考虑 在 处 理 器 之 间 划 分 存储 关系 的 策略 。 可 
能 我 们 能 够 做 的 最 好 的 就 是 使 用 包含 一 个 元 组 的 所 有 成 分 的 散 列 函 数 h， 使 得 改变 元 组 的 一 个 
成 分 就 可 以 将 h(D) 改 变 到 任何 可 能 的 桶 号 。 举 例 来 说 ， 如 果 想 要 B 个 桶 ， 我 们 可 以 将 每 一 个 成 
分 转化 为 0 ~ 8 -1 之 间 的 一 个 整数 ， 并 将 对 应 每 一 个 成 分 的 整数 加 起 来 ， 结 果 用 B 除 ， 余 数 作 
为 桶 号 。 如 果 B 也 是 处 理 器 的 数目 ， 那 么 我 们 可 以 将 每 个 处 理 器 与 一 个 桶 关联 ， 并 把 桶 的 内 容 
传 给 那个 处 理 器 。 

15.9.3 全 关系 操作 的 并 行 算法 

首先 ， 让 我 们 考虑 操作 CR) ， 这 是 一 个 不 那么 典型 的 全 关系 操作 。 如 果 我 们 按照 15.9.2 节 
的 建议 ,使 用 一 个 散 列 函数 分 布 R 的 元 组 ， 那 么 我 们 在 同一 个 处 理 器 上 放置 R 的 重复 元 组 。 如 
采 是 这 样 。 那么 通过 在 每 一 个 处 理 器 的 R 部 分 上 使 用 一 个 标准 的 、 单 处 理 器 算法 就 像 15.4.1 
节 和 15.5.2 节 的 例子 ) 来 并 行 地 产生 CR)。 同 样 ， 如 果 使 用 同一 个 散 列 函数 来 分 发 所 有 R 和 5 的 
元 组 ， 那 么 我 们 可 以 通过 在 每 一 个 处 理 器 的 R 和 5 的 部 分 上 并 行 工作 来 取得 R 和 S$ 的 并 、 交 或 差 。 

但 是 ,假设 R 和 5 不 是 使 用 同一 个 散 列 函数 来 分 布 ， 并且 我 们 希望 执行 它们 的 并 ?。 在 这 种 
情况 下 ， 我 们 必须 生成 R 和 s 的 所 有 元 组 的 副本 ， 并 按照 单一 的 一 个 散 列 函数 hs 来 分 发 它们 。 

我 们 使 用 散 列 函数 ， 并 行 地 将 R 和 5S 的 元 组 散 列 到 每 一 个 处 理 器 上 。 散 列 过 程 就 像 15.5.1 节 
那样 进行 ， 但 当 一 个 处 理 器 /相应 于 桶 ;的 缓冲 区 满 了 时 ， 并 不 是 在 j 上 将 它 移动 到 磁盘 ， 而 
是 将 缓冲 区 的 内 容 输送 到 处 理 器 ;。 如 果 我 们 有 空间 在 内 存 中 存放 每 个 桶 的 几 个 块 ， 那 么 在 将 
它们 输送 到 处 理 器 i 之前， 我 们 可 以 等 待 用 桶 的 元 组 填 满 儿 个 缓冲 区 。 

这 样 ， 处 理 器 ;接收 R 和 5 的 所 有 属于 桶 i 的 元 组 。 在 第 二 阶段 ， 每 个 处 理 器 对 属于 它 的 桶 中 
的 R 和 5 的 元 组 执行 并 操作 。 其 结果 是 ， 关 系 RU S 将 分 布 在 所 有 处 理 器 上 。 如 果 散 列 函 数 /真正 
随机 产生 桶 中 元 给 的 位 置 ， 那 么 我 们 可 以 期 望 RUS 在 每 一 个 处 理 器 上 的 元 组 的 数目 近似 相等 。 

交 和 差 的 操作 可 以 和 并 一 样 来 执行 ; 它 并 不 管 这 些 操作 是 集合 还 是 包 的 形式 。 另 外 ， 

“为 了 计算 RCX, 刀 za S(Y,Z)， 我 们 将 R 和 5 的 元 组 散 列 到 与 处 理 器 数目 相同 的 桶 中 。 但 是 ， 

我 们 使 用 的 散 列 函数 必定 仅 依 赖 于 7 的 属性 ， 而 不 是 全 部 的 属性 ， 这 使 得 连接 元 组 总 是 被 

送 到 同一 个 桶 中 。 就 像 并 那样 ， 我 们 将 桶 ;的 元 组 送 到 处 理 器 ;。 那 么 我 们 就 可 以 在 每 一 个 


o 特别 地 ， 我 们 不 希望 使 用 分 割 散 列 函数 ( 在 14.2.5 节 中 讨论 )， 因 为 那 会 将 具有 一 个 给 定 的 属性 值 如 a=10 的 所 
有 元 组 存放 到 桶 的 很 小 的 子 集中 。 

© 在 原理 上 ， 这 个 并 可 以 是 基于 集合 的 ， 也 可 以 是 基于 包 的 。 但 是 15.2.3 节 的 包 - 并 技术 ， 是 复制 所 有 的 操作 对 象 
的 元 组 ， 它 是 并 行 工作 的 ， 因 此 我 们 可 能 不 希望 使 用 这 里 描述 的 算法 来 执行 包 -并 。 

D 如 果 用 来 分 发 R 或 5 的 元 组 的 散 列 函 数 是 已 知 的 ,那么 我 们 可 以 使 用 该 散 列 函数 来 分 发 另 一 个 关系 ， 而 不 是 两 
个 关系 都 分 发 。 
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处 理 器 上 使 用 在 本 章 中 已 经 讨论 过 的 任何 一 个 单 处 理 器 连接 算法 来 执行 连接 了 。 

。 为 了 计算 分 组 和 育 集 X%(R)， 我 们 使 用 一 个 仅 依 赖 于 列表 L 中 的 分 组 属性 的 散 列 函 数 h 来 分 

发 R 的 元 组 。 如 果 每 个 处 理 器 具有 对 应 于 h 的 一 个 桶 的 所 有 元 组 ， 那 么 可 以 使 用 任何 一 个 

单 处 理 器 7 算法 来 在 这 些 元 组 上 局 部 地 执行 % 操 作 。 
15.9.4 并 行 算法 的 性 能 

现在 ， 让 我 们 比较 在 有 p 个 处 理 器 的 机 器 上 一 个 并 行 算法 的 运行 时 间 与 使 用 单 处 理 器 在 同 
样 数据 同样 操作 上 的 算法 的 执行 时 间 。 总 的 工作 量 一 磁盘 VO 和 处 理 器 周期 一 并行 机 不 可 能 
比 单 处 理 器 机 更 小 。 但 是 ， 因 为 有 P 个 处 理 器 与 p 个 磁盘 一 起 运转 ， 我 们 可 以 期 望 多 处 理 器 耗费 
的 时 间 比 单 处 理 器 小 得 多 。 

就 像 我 们 在 15.9.2 节 中 建议 的 ， 如 果 关 系 R 是 均匀 分 布 的 ， 一 元 操作 符 ， 如 oc(R)， 可 以 在 
单 处 理 器 执行 这 个 操作 的 时 间 的 1/p 内 完成 。 磁 盘 I/0 的 数目 与 单 处 理 器 上 的 选择 操作 必然 是 一 
样 的 。 惟 一 的 差别 是 ， 平均 每 个 处 理 器 上 有 R 的 p 个 半 满 的 块 ， 而 不 是 将 R 的 所 有 元 组 存储 在 一 
个 处 理 器 的 磁盘 上 ， 从 而 只 有 单个 半 满 的 块 。 

现在 ,考虑 二 元 操作 ， 如 连接 。 我 们 在 连接 属性 上 使 用 一 个 散 列 函数 ， 它 将 每 一 个 元 组 传 
送 到 p 个 桶 中 的 一 个 ， 其 中 p 是 处 理 器 的 数目 。 对 于 所 有 的 i， 为 了 将 桶 ;的 元 组 传送 到 处 理 器 i， 
我 们 必须 将 每 个 元 组 从 磁盘 上 读 人 和 人 内存， 计算 散 列 函数 ， 并 将 所 有 这 些 元 组 ， 除 去 碰巧 属于 它 
自己 的 处 理 器 上 的 桶 的 那 p 分 之 一 的 元 组 外 ， 传 送出 去 。 如 果 我 们 正在 计算 RCX,D mS(Y,Z)， 那 
么 需要 做 B(R)+B(5) 次 磁盘 WO 来 读 R 和 S$ 的 所 有 元 组 ， 并 且 确 定 它们 的 桶 。 


.接着 我 们 必须 经 过 网 络 ， 将 | 2 (+ BCS) 个 数据 块 传送 到 适当 的 处 理 器 上 ， 仅 有 (1/p) 
的 已 在 正确 处 理 器 上 的 元 组 不 需要 传输 。 依 赖 于 机 器 的 体系 结构 ， 传 送 的 代价 可 以 大 于 或 小 于 
同样 的 磁盘 WO 数目 的 代价 。 但 是 ， 我们 将 假设 网 络 上 的 传送 比 磁盘 和 内 存 之 间 的 数据 移动 的 
代价 小 得 多 ， 因 为 网 络 上 的 传送 没有 包含 物理 动作 ， 但 是 磁盘 IO 中 包括 。 

原理 上 讲 ， 我 们 可 以 假设 接收 处 理 器 必须 首先 在 它 自 己 的 磁盘 上 存储 数据 ， 然 后 在 收 到 的 
元 组 上 执行 一 个 局 部 连接 。 举 例 来 说 ， 如 果 我 们 在 每 一 个 处 理 器 上 使 用 两 趟 的 排序 连接 ， 朴 素 
的 并 行 算法 将 在 每 一 个 处 理 器 上 使 用 3(CB(R)+B(S))/p 次 磁盘 1/O， 因 为 每 一 个 桶 中 关系 的 大 小 近 
似 为 B(R)/p 和 B(S)/p， 并 且 这 种 连接 类 型 将 对 每 个 操作 对 象 关系 占用 的 桶 花费 三 次 磁盘 1/O。 对 
于 这 个 代价 ， 我 们 将 在 每 个 处 理 器 上 增加 另外 的 2(B(R)+B(S))/p 次 磁盘 IO ， 用 于 每 个 元 组 的 第 
一 次 读 和 在 元 组 的 散 列 和 分 布 的 过 程 中 接收 元 组 的 处 理 器 对 每 一 个 元 组 进行 存储 。 我 们 应 当 还 
加 上 传送 数据 的 代价 ， 但 实际 上 与 同样 数据 的 磁盘 IO 代价 相 比 ， 这 个 代价 是 可 以 忽略 的 。 

上 面 的 比较 说 明了 多 处 理 器 的 价值 。 当 我 们 总 共 做 了 更 多 的 磁盘 IO ， 每 个 数据 块 五 次 磁 
盘 IO ， 而 不 是 三 次 时 ， 所 消耗 的 时 间 ， 以 在 每 个 处 理 器 上 执行 磁盘 IO 的 时 间 来 计 ， 从 
3(B(R)+B(5)) 降 到 了 5(B(R)+B(S))/p， 对 于 大 的 p 来 说 ， 这 是 一 个 有 意义 的 胜利 。 

此 外 ， 有 许多 提高 并 行 算法 的 速度 的 方法 ， 使 得 总 共 的 磁盘 IO 的 数量 不 多 于 单 处理 器 算 
法 所 需 的 磁盘 IO。 事 实 上 ， 因 为 我 们 在 每 个 处 理 器 上 对 一 个 小 关系 操作 ， 因 此 ， 可 能 使 用 一 
个 对 每 个 数据 块 使 用 较 少 的 磁盘 IO 的 局 部 连接 算法 。 举 例 来 说 ， 即 便 R 和 8 很 大 ， 使 得 在 单 处 
理 器 上 需要 两 趟 算法 ， 我 们 仍 能 够 在 (1/p) 的 数据 上 使 用 一 趟 算法 。 

如 果 将 一 个 块 传送 到 它 的 桶 的 处 理 器 时 ， 处 理 器 能 够 立即 使 用 这 个 块 作为 它 的 连接 算法 的 
一 部 分 ， 我 们 就 可 以 避免 每 个 块 的 两 次 磁盘 MO。 大 多 数 已 知 的 连接 和 其 他 关系 操作 符 人 允许 这 
种 使 用 ， 在 这 种 情况 下 ， 并 行 算法 看 起 来 就 像 15.8.3 节 中 在 第 一 趟 时 使 用 散 列 技术 的 多 趟 算法 。 
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例 15.18 BBBMSTHAMFRXY)  SY,Z), HPRASE A 1000S ASO0TR. ME, 
设 有 一 台 10 个 处 理 器 的 机 器 ， 每 个 处 理 器 有 101 个 缓冲 区 。 而 且 ， 假 设 R 和 4 在 这 10 个 处 理 器 上 
均匀 分 布 的 。 

开始 时 ， 我 们 使 用 仪 依赖 于 连接 属性 7 的 散 列 函 数 h， 将 R 和 5 的 每 一 个 元 组 散 列 到 10 个 
“ 桶 ”中 的 一 个 。 这 10 个 桶 代表 10 个 处 理 器 ， 元 组 被 传送 到 对 应 “ 桶 ”的 处 理 器 上 。 读 R 和 5 的 






大 错误 

当 使 用 基于 散 列 的 算法 来 在 处 理 器 之 间 分 布 关 系 并 执行 操作 时 ， 就 像 例 15.18 那 样 ， 
我 们 必须 当心 不 要 过 度 使 用 一 个 散 列 函数 。 举 例 来 说 ， 假 设 为 了 计算 R 和 5 的 连接 ,我 们 
使 用 散 列 函数 h 在 处 理 器 之 间 将 关系 RR 和 5 的 元 组 进行 散 列 。 我 们 可 能 想 尝 试 使 用 h 将 5 的 元 
组 局 部 地 散 列 到 桶 中 ， 就 像 我 们 在 每 个 处 理 器 上 执行 一 趟 的 散 列 一 连接 那样 。 但 如 果 我 
们 这 样 做 了 ， 所 有 的 那些 元 组 都 会 跑 到 一 个 桶 中 ， 例 15.18 中 建议 的 内 存 连 接 将 极端 低 效 。 


元 组 的 总 的 磁盘 LO 的 数目 是 1500， 或 者 说 每 个 处 理 器 150 个 。 每 个 处 理 器 有 大 约 15 个 块 的 数据 
散 列 到 它 自 身 ， 用 于 其 他 处 理 器 数据 的 块 ， 因 此 ， 它 将 135 个 块 传送 到 其 他 的 9 个 处 理 器 上 。 这 
样 ， 总 的 通信 量 是 1350 个 块 。 

我 们 将 安排 处 理 器 在 传送 R 的 元 组 之 前 传送 $ 的 元 组 。 因 为 每 一 个 处 理 器 接收 大 约 50 个 5 的 
元 组 的 块 ， 它 就 能 够 使 用 它 的 101 个 缓冲 区 中 的 50 个 ， 在 内 存 数据 结构 中 存储 这 些 元 组 。 然 后 ， 
当 处 理 器 开始 发 送 R 的 元 组 时 ， 将 每 一 个 元 组 与 局 部 的 8 的 元 组 比较 ， 任 何 连接 元 组 的 结果 都 将 
作为 输出 。 

在 这 种 方式 中 ， 连 接 惟 一 的 代价 是 1500 次 磁盘 IJO， 比 本 章 中 讨论 的 任何 其 他 方法 都 小 得 
多 。 而 且 ， 在 每 个 处 理 器 上 操作 所 消耗 的 时 间 大 致 上 是 150 次 磁盘 IO ， 加 上 在 处 理 器 之 间 传 送 
元 组 和 执行 内 存 计 算 所 需 的 时 间 。 注 意 到 150 次 磁盘 IO 少 于 在 单 处 理 器 上 执行 同样 算法 时 间 的 
1/10。 赢 得 这 些 并 不 仅仅 因为 我 们 有 10 个 运行 的 处 理 器 ， 而 且 在 10 个 处 理 器 中 总 共有 1010 个 组 
冲 区 为 我 们 赢得 了 额外 的 效率 。 

当然 ， 你 可 能 会 说 ， 如 果 在 一 个 单 处 理 器 上 有 1010 个 缓冲 区 ， 那 么 我 们 连接 的 例子 可 能 会 
使 用 1500 次 磁盘 IO 在 一 趟 中 完成 。 但 是 ， 因 为 多 处 理 器 具有 的 内 存 通常 与 处 理 器 的 个 数 成 比 
例 ， 所 以 我 们 同时 利用 了 多 处 理 器 的 两 个 益处 来 得 到 两 个 独立 的 提高 ， 一 -个 与 处 理 器 个 数 成 比 
例 ， 另 一 个 是 因为 额外 的 内 存 允 许 我 们 使 用 更 高 效 的 算法 。 口 


15.9.5 习题 
习题 15.9.1 假设 一 次 磁盘 VO 占用 100 毫 秘 。 令 B(R)=100， 所 以 在 一 个 单 处 理 器 的 机 器 上 
计算 oc(R) 的 磁盘 WO 将 占用 10 秒 。 如 果 这 个 选择 在 一 台 有 p 个 处 理 器 的 机 器 上 执行 ， 效 率 提 
高 多 少 ? 
* a) p=8 

b) p=100 

c) p=1000 
习题 15.9.2 ”在 例 15.18 中 ,我们 描述 了 一 个 算法 ， 它 通过 首先 将 元 组 散 列 分 布 到 多 个 处 理 
船上 ， 再 在 处 理 器 上 执行 一 赵 连 接 算法 来 并 行 地 计算 Rea 5S。 按 照 8(R) 和 BCS)， 即 相关 的 关 
系 的 大 小 ，p( 处 理 器 的 数目 ) 和 M( 每 一 个 处 理 器 上 内 存 的 块 数 ) ， 来 给 出 算法 可 以 成 功 执行 
的 条 件 。 
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15.10 小 结 


* 查询 处 理 : 查询 被 编译 ， 其 中 涉及 大 量 的 优化 ， 然 后 被 执行 。 查 询 执行 的 研究 包括 了 解 
与 SQL 功能 匹配 的 扩充 的 关系 代数 上 的 执行 操作 的 方法 。 

。 查 询 计划 : 查询 首先 被 编译 为 逻辑 查询 计划 ， 通 常 就 像 关系 代数 表达 式 ， 然 后 如 在 第 16 
章 中 将 要 讨论 的 ， 通 过 为 每 一 个 操作 符 选择 一 个 实现 、 对 连接 排序 和 做 出 一 些 其 他 的 决 
定 ， 来 将 逻辑 查询 计划 转化 成 物理 查询 计划 。 

。 表 扫描 : 为 了 访问 关系 的 元 组 ， 有 几 个 可 行 的 物理 操作 符 。 表 扫描 操作 符 简单 地 读 取 存 
放 关 系 的 元 组 的 块 。 索 引 扫描 使 用 索引 来 找到 元 组 ， 排 序 扫描 产生 排 好 序 的 元 组 。 

。 物 理 操作 符 的 代价 度量 ; 通常， 执行 一 个 操作 占用 的 磁盘 UVO 的 数量 是 消耗 时 间 的 主要 部 
分 。 在 我 们 的 模型 中 ， 只 计 磁 盘 IO 时 间 ， 并 且 计算 读 操作 对 象 所 需 的 时 间 和 空间 ， 而 不 
管 写 出 结果 的 代价 。 

RRS: 如 果 我 们 把 一 个 查询 的 执行 看 做 是 由 迭代 器 来 操作 ， 那 么 一 个 查询 执行 涉及 的 
几 个 操作 可 以 很 方便 地 混合 起 来 。 这 个 机 制 包含 三 个 函数 ， 用 于 打开 关系 的 结构 、 得 到 
关系 的 下 一 个 元 组 和 关闭 这 个 结构 。 

ZARR: 只 要 关系 代数 所 作 符 的 一 个 操作 对 象 能 够 装 人 内 存 ， 我 们 就 可 以 将 小 的 关系 
读 进 内 存 ， 并 一 次 一 个 块 地 读 另 一 个 操作 对 象 来 执行 这 个 操作 符 。 

REENER: 这 个 简单 的 连接 算法 其 至 在 两 个 操作 对 象 都 不 能 装 人 内 存 时 也 能 运转 。 
它 将 较 小 的 关系 尽 可 能 多 地 读 进 内 存 ， 并 将 它 与 整个 的 另 一 个 作对 象 比 较 ; 这 个 过 程 重 
复 执行 直到 较 小 的 关系 的 所 有 元 组 都 进 过 内 存 。 

* 两 趋 算法 : 除了 霸 套 循环 连接 ， 大 多 数 对 于 不 能 装 人 内 存 的 操作 对 象 的 算法 ， 或 者 是 基 
于 排序 的 和 基于 散 列 的 ,或 者 是 基于 索引 的 。 

。 基 于 排序 的 算法 : 这 些 算法 将 它们 的 操作 对 象 分 割 成 内 存 大 小 的 、 排 序 的 子 表 。 然 后 排 
序 的 子 表 被 适当 地 归并 来 产生 所 需 的 结果 。 

“基于 散 列 的 算法 : 这 些 算法 使 用 一 个 散 列 函数 将 操作 对 象 分 割 到 桶 中 。 然 后 操作 被 分 别 
应 用 到 桶 (对 一 元 操作 ) 和 桶 对 (对 二 元 操作 ) 上 。 

“ 散 列 与 排序 : 基于 散 列 的 算法 常常 优 与 基于 排序 的 算法 ， 因 为 它 仅 要 求 一 个 操作 对 象 是 
“小 的 "。 在 另 一 方面 ， 当 有 另外 的 原因 需要 保持 数据 排序 时 ， 基 于 排序 的 算法 表现 得 很 
好 。 

"基于 索引 的 算法 : 对 于 条 件 是 索引 属性 等 于 常量 的 选择 来 说 ， 使 用 索引 是 提高 性 能 的 一 
种 极 好 的 方式 。 当 一 个 关系 是 小 的 ， 而 另 一 个 具有 连接 属性 上 的 索引 时 ， 基 于 索引 的 连 
接 也 是 很 好 的 。 

“缓冲 区 管理 器 : 内 存 块 的 可 用 性 是 由 缓冲 区 管理 器 来 控制 的 。 当 内 存 中 需要 一 个 新 的 组 
冲 区 时 ， 缓 冲 区 管理 器 使 用 一 个 读者 所 熟悉 的 替代 策略 ， 如 最 近 最 少 使 用 ， 来 决定 哪 一 
个 缓冲 区 的 内 容 返回 到 磁盘 上 。 

。 处 理 缓冲 区 数目 变化 : 通常 ， 用 于 一 个 操作 的 可 用 的 内 存 缓冲 区 的 数目 是 不 可 预测 的 。 
如 果 是 这 样 ， 当 可 用 的 缓冲 区 数目 减少 时 ， 用 于 实现 操作 的 算法 会 大 大 降级 。 

。 多 赵 算 法 : 基于 排序 的 或 基于 散 列 的 两 趟 算法 可 以 自然 地 递 推 到 三 趟 或 更 多 趟 ， 用 来 运 
行 更 大 的 数据 量 。 

“并 行 机 : 当前 的 并 行 机 可 以 根据 特点 分 为 共享 内 存 、 共 享 磁盘 和 无 共享 。 对 于 数据 库 应 
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用 来 说 ， 无 共享 结构 通常 是 最 有 效 的 。 

“并 行 算法 : 关系 代数 的 操作 通常 能 够 在 并 行 机 上 获得 一 个 接近 于 处 理 器 数目 的 因子 的 提 
高 速度 。 常 用 的 算法 是 将 数据 散 列 到 对 应 于 处 理 器 的 桶 ， 青 将 数据 传送 到 适当 的 处 理 器 
上 。 接 着 每 个 处 理 器 对 它 的 局 部 数据 执行 操作 。 
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第 16 章 查询 编译 器 


在 第 15 章 中 我 们 已 经 知道 了 执行 物理 查询 计划 操作 符 的 基本 算法 ， 本 章 我 们 来 讲解 查询 纺 
译 器 及 其 优化 器 的 体系 结构 。 正 如 在 图 15-2 中 提 到 的 那样 ， 查 询 处 理 器 必须 采取 三 个 主要 步 又， 

1. 对 使 用 诸如 SQL 的 某 种 语言 书写 的 查询 进行 语法 分 析 ， 亦 即将 查询 语句 转换 成 按 某 种 有 
用 方式 表示 查询 语句 结构 的 语法 树 。 

2. 把 语法 分 析 树 转换 成 关系 代数 表达 式 树 ( 或 某 种 类 似 标 记 )， 我 们 称 之 为 逻辑 查询 计划 。 

3. 逻辑 查询 计划 必须 转换 成 物理 查询 计划 ， 物 理 查询 计划 不 仅 指 明了 要 执行 的 操作 ， 而 且 
也 找 出 了 这 些 操作 执行 的 顺序 、 执 行 每 步 所 用 的 算法 、 获 得 所 存储 数据 的 方式 以 及 数据 从 一 个 
操作 传递 给 另 一 个 操作 的 方式 。 

第 一 步 ， 语 法 分 析 ， 是 16.1 节 的 主题 。 这 一 步 的 结果 是 查询 语句 前 一 棵 语法 分 析 树 。 另 外 
两 步 涉 及 许多 选择 。 在 挑选 一 个 逻辑 查询 计划 时 ， 我 们 有 机 会 应 用 多 个 不 同 的 代数 操作 ， 其 目 
标 是 得 到 最 佳 的 逻辑 查询 计划 。16.2 节 在 理论 上 讨论 关系 代数 的 代数 定律 。 接 着 在 16.3 节 讲述 
如 何 将 语法 分 析 树 转换 成 初始 的 逻辑 查询 计划 ， 并 说 明 16.2 节 中 的 代数 定律 如 何 应 用 到 改进 初 
始 逻辑 查询 计划 的 策略 中 去 。 

当 从 一 个 逻辑 计划 产生 物理 计划 时 ， 我 们 必须 估计 每 个 可 选 方案 的 预计 代价 。 代 价 估计 本 
身 就 是 一 门 科学 ， 我 们 在 16.4 节 讨论 。 在 16.5 节 我 们 讲述 如 何 使 用 代价 估计 来 评价 一 个 计划 。 
考虑 多 个 关系 的 连接 顺序 时 会 引出 许多 特殊 问题 ， 这 是 16.6 节 的 话题 。 最 后 ，16.7 节 讨论 了 其 
他 有 关 选 择 物理 查询 计划 的 各 种 问题 与 策略 : 算法 选择 以 及 采用 流水 线 处 理 还 是 实体 化 方法 。 


16.1 语法 分 析 


查询 编译 的 开始 几 个 阶段 如 图 16-1 所 示 。 图 中 的 四 个 方 框 对 应 于 图 15-2 的 开始 两 个 阶段 。 
我 们 在 语法 分 析 与 转换 成 初始 逻辑 查询 计划 之 间 分 离 出 
“ 预 处 理 ” 步 又 ， 该 步 将 在 16.1.3 节 中 讨论 。 

本 节 我 们 讨论 SQL 的 语法 分 析 ， 并 给 出 可 用 于 该 语言 
的 基本 语法 要 素 。16.2 节 我 们 暂时 偏离 查询 编译 这 条 主线 ， 
详尽 考察 可 应 用 到 关系 代数 表达 式 的 各 种 定律 或 变换 。 
在 16.3 节 我 们 继续 查询 编译 这 个 主题 。 首 先 ， 我 们 考察 如 
何 将 一 棵 语法 树 转换 成 一 个 关系 代数 表达 式 ， 后 者 就 是 
初步 的 逻辑 查询 计划 。 接 着 ， 我 们 考察 如 何 应 用 16.2 节 中 
的 某 些 特定 变换 公式 改进 查询 计划 ， 而 不 是 简单 地 将 一 选中 的 逻辑 查询 计划 
个 计划 变换 成 一 个 等 价 的 却 不 一 定 更 好 的 计划 。 l 
16.11 语法 分 析 与 语法 分 析 树 miei 人 一 个 查询 到 一 个 

语法 分 析 器 的 工作 是 接收 用 类 似 SQL 这 样 的 语言 编写 FREMI 
的 文本 并 将 之 转换 成 语法 分 析 树 ， 该 树 的 结 点 对 应 于 以 下 两 者 之 一， 

1. 原子 : 它们 是 词法 成 分 ， 如 关键 字 ( 如 sgrEgcT )、 关 系 或 属性 的 名 字 、 党 数 、 括 号 、 操 
作 符 如 + 或 <， 以 及 其 他 模式 成 分 ; 或 








~ 
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2. 语法 类 : 即 在 一 个 查询 中 起 相似 作用 的 查询 子 成 分 所 形成 族 的 名 称 。 我 们 用 尖 括 号 将 描 
述 性 的 名 称 括 起 来 表示 语法 类 。 例 如 ，<SFW> 用 于 表示 以 常用 的 select-from-where 形 式 的 查询 ， 
而 <Condition> 将 用 于 表示 属于 条 件 的 任何 表达 式 ， 如 那些 跟 在 SQL 语句 wHERE 之 后 的 表达 式 。 

如 果 结 点 是 一 个 原子 ， 则 该 结 点 没有 子女 。 然 而 ， 若 该 结 点 是 一 个 语法 类 ， 则 其 子女 通过 该 
语言 的 语法 规则 之 一 进行 描述 。 我 们 将 通过 例子 来 说 明 这 些 思想 。 关 于 如 何 设计 一 个 语言 的 语法 
以 及 如 何 进 行 语 法 分 析 ， 如 将 一 个 程序 或 查询 语句 转换 成 语法 分 析 树 ， 这 些 细节 当 属 编译 课程 的 
WES. 
16.1.2 SQL 的 一 个 简单 子 集 的 语法 

通过 给 出 可 用 于 SQL 子 集 的 语言 的 某 些 规则 ， 我 们 借 此 说 明 语法 分 析 的 过 程 。 同 时 我 们 也 
包含 了 关于 得 到 完整 的 SQL 语法 还 需要 哪些 其 他 规则 的 评论 。 


查询 
语法 类 <Query> 用 于 表示 所 有 正则 SQL 查询 语句 。 它 的 一 些 语法 规则 是 ; 
<Query> ::= <SFW> 
<Query> ::= ( <Query> ) 


注意 ， 我 们 按 习惯 用 : : = 符号 表示 “可 以 表述 为 ”的 意思 。 第 一 个 规则 说 的 是 一 个 查询 语 
名 可 以 是 select-from-where 的 形式 ; 下 面 我 们 将 进 述 <SFW> 的 语法 规则 。 第 二 个 规则 说 的 是 一 
个 查询 可 以 是 用 括号 括 起 的 另 一 个 查询 。 在 完整 的 SQL 语法 中 ， 我 们 还 需要 这 样 的 规则 ， 它 多 
许 一 个 查询 是 单个 关系 或 是 涉及 多 个 关系 与 各 种 类 型 操作 的 表达 式 ， 如 UNION 或 JOIN 操 作 的 
表达 式 。 
Select-From-Where 形 式 

我 们 给 出 语法 类 <SFW> 的 一 条 规则 : 


<SFW> ::= SELECT <SelList> FROM <FromList> WHERE <Condition> 


该 规则 接受 限定 形式 的 SQL 查 语 询 句 ， 但 不 接受 其 他 多 种 任 选 子 句 ， 如 GROUP BY, HAVING 
或 ORDER BY 子 句 ， 也 不 接受 SELECT 之 后 的 DISTINCT 选 项 。 这 里 提醒 一 下 ， 一 个 真正 的 
SQL 语法 包含 复杂 得 多 的 查询 结构 ， 除 了 包含 前 面 提 到 的 select-from-where 的 变形 外 ， 还 包含 
HUNION, NATURAL JOIN 等 操作 符 构 造 而 得 的 SQL 语句 以 及 许多 其 他 的 语句 。 

注意 我 们 的 习惯 ， 关 键 字 用 大 写 。 语 法 类 <SelList> 与 <FromList> 表 示 可 以 分 别 跟 在 
SELECT 与 FROM 之 后 的 列表 。 很 快 我 们 就 会 讲述 这 类 列表 的 受 限 形式 。 语 法 类 <Condition> 表 
示 SQL 条 件 ( 那些 要 么 为 真 要 么 为 假 的 表达 式 ) ; 后 面 我 们 将 给 出 该 语法 类 的 简化 规则 。 
Select 列 表 


<SelList> : := <Attribute> , <SelList> 
<SelList> ::= <Attribute> 


这 两 条 规则 说 明 一 个 选择 列表 可 为 任何 由 逗号 分 隔 的 属性 列表 : 要 么 是 单个 属性 要 么 是 一 
个 属性 、 一 个 逗号 以 及 一 个 或 多 个 属性 的 任意 列表 。 注 意 ， 在 完整 的 SQL 语法 中 ， 我 们 在 选择 
表 中 还 需 提供 接纳 表达 式 与 聚集 函数 以 及 属性 与 表达 式 别名 的 规则 。 


但 ”对 这 方面 内 容 不 熟悉 的 读者 可 以 参阅 A.V.Aho、R.Sethi 和 J.D. Uliman 的 《 Compilers: Principles, Techniques, 
and Tools}, Addison-Wesley, Reading MA, 1986. 当然 16.1.2 节 的 例子 用 于 表示 查询 处 理 器 中 的 语法 分 析 是 
足够 了 o 
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From 列 表 
<FromList> ::= <Relation> , <FromList> 
<FromList> ::= <Relation> 


这 里 的 from 列 表 可 由 任意 用 逗号 分 隔 的 关系 列表 组 成 。 为 简便 起 见 ， 我 们 省 略 了 from 列 表 
元 素 是 表达 式 的 可 能 性 ， 如 不 会 是 R_ JOIN 8$， 甚 至 一 个 select-from-where 表 达 式 。 类 似 地 ， 完 
整 的 SQL 语法 应 当 提 供 对 from 列 表 中 的 关系 取 别 名 的 机 制 ; 这 里 我 们 不 允许 关系 后 跟 上 表示 该 
关系 的 元 组 变量 名 。 ~ 


我 们 将 使 用 的 规则 有 : 

<Condition> : := <Condition> AND <Condition> 
<Condition> ::= <Tuple> IN <Query> 
<Condition> ::= <Attribute> = <Attribute> 
<Condition> ::= <Attribute> LIKE <Pattern> 


虽然 我 们 在 条 件 类 中 列 出 了 比 其 他 语法 类 更 多 的 语法 规则 ， 但 是 这 些 规 则 对 于 各 种 形式 的 
条 件 而 言 只 不 过 触及 皮毛 而 已 。 我 们 省 略 了 涉及 下 列 操作 符 的 规则 : OR、NOT、EXISTS、 除 
了 等 号 与 LIKE 之 外 的 其 他 比较 操作 符 、 常 量 操作 数 以 及 许多 其 他 结构 ， 这 些 结构 在 完整 的 
SQL 语法 中 是 需要 的 。 此 外 ， 虽 然 一 个 元 组 可 能 有 多 种 形式 ， 但 我 们 只 为 语法 类 <Tuple> 引 入 
一 条 规则 ， 意 为 一 个 元 组 可 为 单个 属性 ; 


<Tuple> ::= <Attribute> 


基本 语法 类 

语法 类 <Attribute>、<Relation> 和 <Pattern> 是 较为 特殊 的 ， 因 为 它们 不 是 通过 语法 规则 定 
义 的 ， 而 是 通过 它们 所 代表 的 原子 的 规则 来 定义 的 。 例 如 ， 在 语法 分 析 树 中 ，<Attribute> 的 一 
个 子女 可 以 是 任意 的 字符 串 ， 可 解释 为 查询 所 针对 的 任意 数据 库 模式 中 一 个 属性 的 名 字 。 类 似 
地 ，<Relation> 可 以 被 当前 模式 中 作为 关系 而 言 的 任何 有 意义 的 字符 串 所 替代 ; <Patterm> 可 以 
用 任何 一 个 用 引号 括 起 的 字符 串 替 换 ， 其 中 字符 串 是 一 个 合法 的 SQL 匹配 模式 。 

例 16.1 在 语法 分 析 与 查询 重 写 阶段 ， 我 们 的 研究 主要 围绕 一 个 查询 语句 的 两 个 版 本 来 进 
行 ， 该 查询 涉及 在 电影 例子 的 几 个 关系 : 


StarsIn(movieTitle, movieYear, starName) 
MovieStar(name, address, gender, birthdate) 


该 查询 的 两 个 版 本 都 是 询问 那些 其 中 至 少 有 一 个 在 1960 年 出 生 的 影星 的 电影 的 名 字 。 我 们 
通过 使 用 LIKE 操 作 符 来 判定 其 出 生日 期 (一 个 SQL 字 符 串 ) 是 否 以 ”1960” 结 尾 ， 从 而 找 出 那 
些 出 生 于 1960 年 的 影星 。 


SELECT movieTitle 


发 起 该 查询 的 一 种 方式 是 用 子 查询 来 构造 那 FROM StarsIn 
些 出 生 于 1960 年 的 影星 名 字 的 集合 ， 并 查看 每 个 WHERE starNane IN ( 
StarsIn 元 组 中 的 starName 是 否 是 该 子 查 询 返 FROM MovieStar 
回 的 集合 的 一 个 成 员 。 这 个 查询 版 本 的 SQL 语句 0 
如 图 16-2 所 示 。 


按照 我 们 所 描绘 的 语法 ， 图 16-2 所 示 查询 语 8162 找 出 有 出 生 于 1960 年 影星 的 电影 
句 的 语法 分 析 树 如 图 16-3 所 示 。 根 是 语法 类 <Query>， 任 何 一 个 查询 语句 的 语法 树 都 必然 是 这 
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种 情况 。 顺 着 树 往 下 走 ， 我 们 可 知 该 查询 语句 是 select-from-where 的 形式 ; 选择 列表 仅 由 属性 


title 构 成 ，from 列 表 只 有 一 个 关系 StarsIn。 


<Query> 


<SFW> 


~ 


SELECT <SelList> FROM <FromList> WHERE <Condition> 


fo TN 


<Attribute> <RelName> <Tuple> IN  <Query> 
movie Title Starsin <Attribute> ( <Query> ) 


starName <SFW> 


[N 


SELECT <SelList> FROM <FromList> WHERE <Condition> 


-一 一 一 


<Attribute> <RelName> <Attribute> LIKE <Pattern> 


name ' MovieStar birthdate °% 1960 

图 16-3 图 16-2 的 语法 树 
在 WHERE 子 句 外 层 的 条 件 比 较 复杂 。 它 属于 “元 组 -IN- 查 询 ” 的 形式 ， 其 中 查询 是 一 个 用 
括号 括 起 的 子 查询 ， 因 为 在 SQL 中 所 有 子 查 询 必须 用 括号 括 起 。 该 子 查询 本 身 又 是 属于 select- 
from-where 形 式 ， 有 其 自身 的 单个 select 列表 与 from 列表 以 及 含有 LIKE 操 作 符 的 简单 条 件 。 口 


例 16.2 现在 我 们 看 看 图 16-2 所 示 查 询 的 另 一 个 版 本 ， 这 次 我 们 不 使 用 子 查 询 ， 而 是 采用 
StarsIn 与 MovieStar 两 个 关系 的 等 值 连接 ， 利 用 条 


SELECT MovieTitle 





件 starName = narme 来 规定 两 个 关系 中 提 到 的 影星 FROM StarsIn, MovieStar 
是 相同 的 影星 。 注 意 ，s tarName 是 关系 StarsIn 的 WHERE starName = nane AND | 
属性 ， 而 name 是 Moviestar 的 一 个 属性 。 图 16-2 中 所 Pirtndare LIKE "41960"; 
示 查 询 的 这 个 版 本 如 图 16-4 所 示 。。 图 164 查询 有 出 生 于 1960 年 的 
对 应 于 图 16-4 的 语法 树 如 图 16-5 所 示 。 该 语法 树 所 影星 的 电影 的 另 一 种 方法 


使 用 的 许多 规则 与 图 16-3 相 同 。 不 过 , 请 注意 在 多 于 一 个 关系 时 from 列表 在 树 中 是 如 何 表示 的 ， 
同时 注意 一 个 条 件 可 以 是 用 操作 符 连 接 起 来 的 多 个 较 小 条 件 的 组 合 ， 我 们 所 举 的 例子 是 用 AND 
连接 的 。 g 


16.1.3 预 处 理 器 

在 图 16-1 中 我 们 称 之 为 预 处 理 器 的 部 件 有 多 个 重要 的 功能 。 如 果 查 询 语句 中 用 到 的 关系 实 
际 上 是 一 个 视图 ， 则 在 from 列 表 中 有 用 到 该 关系 的 地 方 就 必须 用 描述 对 应 的 视图 的 语法 树 来 替 
换 。 这 棵 语法 树 由 视图 的 定义 得 到 ， 本 质 上 就 是 一 个 查询 语句 。 


O 这 两 个 查询 有 一 点 小 小 的 区 别 。 图 16-4 所 示 的 查询 在 一 部 电影 中 有 一 个 以 上 的 影星 出 生 于 1960 年 时 ， 会 产生 
重复 。 严 格 地 说 ， 我 们 应 当 把 DISTINCT 加 到 图 16-4 中 ， 但 我 们 所 举 的 语法 例子 作 了 简化 ， 省 去 了 该 选项 。 


em 


<Query> 


<SFW> 


/~ 


| SELECT <SeiList> FROM <FromList> WHERE <Condition> 


一 /个 


<Attribute> <RelName> , <FromList> 


| | 








movie Title StarsIn <ReiName> 
| AND 
MovieStar 
<Condition> <Condition> 
<Attribute> = <Attribute> <Attribute> LIKE <Pattern> 
starName name birthdate °%1960" ` 


图 16-5 图 16-4 的 语法 树 


预 处 理 器 也 负责 语义 检查 。 即 使 该 查询 语句 语法 上 有 效 ， 它 实际 上 也 可 能 在 名 称 使 用 上 违 
反 一 条 或 多 条 语义 规则 。 例 如 ， 预 处 理 器 必须 : 

1. 检查 关系 的 使 用 。FROM 子 句 中 出 现 的 关系 必须 是 该 查询 所 对 应 模式 中 的 关系 或 视图 。 
例如 ， 预 处 理 器 对 图 16-3 所 示 的 语法 树 进行 处 理 时 ， 将 检查 from 列 表 中 出 现 的 两 个 关系 
StarsIn 与 MovieStar 是 否 在 模式 中 是 合法 的 关系 。 

2. 检查 与 解析 属性 的 使 用 。 在 SELECT 子 句 或 WHERE 子 句 中 提 到 的 每 个 属性 必须 是 当前 范 
围 中 茶 个 关系 的 属性 ; 如 者 不 然 ， 语 法 分 析 器 必须 报错 。 例 如 ， 在 图 16-3 所 示 的 第 一 个 select 
列表 中 的 属性 tit1le 属 于 仅 有 的 一 个 关系 StarsIn 的 范围 ， 因 此 预 处 理 器 核实 了 title 属 性 
的 使 用 。 如 果 在 查询 语句 中 没有 把 关系 显 式 地 附加 到 属性 上 (如 ，scarsin.ticle)， 通 常 查 
询 处 理 器 此 时 会 通过 给 属性 加 上 它 所 引用 关系 的 信息 来 解析 (resolve) 每 一 属性 。 同 时 也 检查 二 
义 性 ， 如 果 某 属性 属于 两 个 或 多 个 关系 ， 则 报错 。 

3. 检查 类 型 。 所 有 属性 的 类 型 必须 与 其 使 用 相 适 应 。 例 如 ， 图 16-3 中 的 birthgate 被 用 于 
LIKE 比 较 中 ， 而 这 种 比较 要 求 birthdate 是 一 个 字符 串 或 是 可 被 强制 转换 成 字符 串 的 某 种 类 型 。 
由 于 birchdace 是 一 个 日 期 型 ， 在 SQL 中 日 期 型 通常 作 字符 串 处 理 ， 因 此 该 属性 的 使 用 受到 了 
校 验 。 类 似 地 ， 要 对 操作 符 进 行 检查 ， 确 保 它 们 作用 到 适当 的 且 相 兼容 的 类 型 的 值 上 。 

如 果 语 法 树 通过 了 所 有 这 些 检查 ， 它 就 被 认为 是 合法 的 。 该 语法 树 在 进行 了 视图 扩展 、 属 
性 作用 解析 后 , 被 传递 给 逻辑 查询 计划 生成 器 。 如 果 语 法 树 是 非法 的 ， 则 报告 相应 的 诊断 信息 ， 
不 作 进 一 步 处 理 。 

16.1.4 习题 
习题 16.1.1 ”增加 或 修改 <SFW> 的 规则 ， 使 其 包含 以 下 各 种 SQL select-from-where 表 达 式 
的 特性 的 简单 版 本 : 
* a) 产生 包含 DISTINCT 关 键 字 的 集合 的 能 力 。 
b) GROUP BY 子 句 和 HAVING 子 句 。 
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c) 用 ORDER BY 子 句 对 结果 排序 。 
d) 没有 where 子 句 的 查询 语句 。 
习题 16.1.2 给 <Condition> 增 加 规则 ， 使 其 包含 以 下 SQL 条 件 表达 式 的 特征 : 
* a) 逻辑 操作 符 OR 和 NOT。 
b) 除了 “= ”之 外 的 比较 操作 。 
c) 带 括号 的 条 件 。 
d) EXISTS 表 达 式 。 
习题 16.1.3 ”使 用 本 节 中 所 给 出 的 简单 的 SQL 语 法 ， 画 出 关于 关系 R(a,b) 与 5(b,c) 查 询 语句 
的 语法 树 :; 
a) SELECT a, c 


FROM R, S 
WHERE R.b = S.b; 





~J 
oO 
小 


b) SELECT a FROM R WHERE b IN 
( SELECT a FROM R, S WHERE Rb = S.b); 


16.2 用 于 改进 查询 计划 的 代数 定律 


我 们 将 在 16.3 节 继续 查询 编译 器 的 讨论 ; 在 那里 ， 首 先 把 语法 树 转 换 成 一 个 表达 式 ， 该 表 
达 式 全 部 或 大 部 分 由 在 5.2 到 5.4 节 介绍 的 扩充 关系 代数 操作 符 组 成 。 在 16.3 节 ， 我 们 将 看 到 如 
何 应 用 启发 式 规则 ， 使 用 关系 代数 中 多 个 代数 定律 中 的 一 部 分 来 改进 查询 语句 的 代数 表达 式 。 
作为 准备 ， 本 节 列 出 一 些 代数 定律 ， 用 于 将 一 个 表达 式 树 转 换 成 一 个 等 价 的 表达 式 树 ， 后 者 可 
能 有 更 有 效 的 物理 查询 计划 。 

应 用 这 些 代数 变换 式 会 生成 逻辑 查询 计划 ， 它 是 查询 重 写 阶段 的 输出 。 逻 辑 查 询 计 划 接 着 
被 转换 成 物理 查询 计划 ， 这 个 过 程 中 查询 优化 器 要 对 操作 符 的 实现 作 一 系列 决策 。 物 理 查询 计 
划 的 生成 将 在 16.4 节 开始 讲述 。 有 一 种 方式 (在 实际 中 不 大 采用 ) 是 在 查询 重 写 阶段 产生 多 个 好 
的 逻辑 计划 ， 对 这 些 逻 辑 计 划 产 生 的 物理 计划 进行 考察 ， 选 择 出 总 的 最 佳 物理 计划 时 。 

16.2.1 交换 律 与 结合 律 

用 于 简化 所 有 类 型 表达 式 的 最 通用 的 代数 定律 是 交换 律 和 结合 律 。 有 关 某 个 操作 符 的 交换 
律 是 指 提供 给 该 操作 符 的 参数 的 顺序 是 无 关 紧 要 的 ， 其 结果 总 是 相同 。 例 如 ，+ 与 x 是 算术 操 
作 中 可 交换 的 操作 符 。 更 准确 地 说 ， 对 于 任意 的 数 x 与 y，x+y=y+x 与 x x y=y x x 成 立 。 但 是 ， 
“- ”不 是 一 个 可 交换 的 操作 符 : x— yy Ay -x。 

一 个 操作 符 的 结合 律 说 的 是 该 操作 符 出 现 的 两 个 地 方 既 可 以 从 左边 进行 组 合 也 可 以 从 右边 
进行 组 合 。 举 例 说 ，+ 与 x 是 满足 结合 律 的 操作 符 ， 意味 着 (x+y)+z=x+(y+z) 和 (x x y) x z=x x (y 
xz) 成 立 。 相 反 ,“- ”操作 符 则 不 满足 结合 律 ，(x -y) -zx-(y -z)。 当 一 个 操作 符 既 满足 结 
合 律 又 满足 交换 律 时 ， 我 们 可 以 对 用 这 个 操作 符 连接 起 来 的 任意 多 个 操作 数 进行 随意 组 合 与 排 

列 ， 而 不 会 改变 结果 。 例 如 ，((w+tx)+y)+z=(y+x)+(ztw)。 

关系 代数 的 多 个 操作 符 同 时 满足 结合 律 与 交换 律 。 尤 其 是 : 

e RxS=SxR;(RxS)xT=Rx(SxT) 

e Ra S = S ra R; (R a S) œ T = Rm (S T) 

e RUS=SUR; (RUS)UT=RU(SUT) 


e RNS=SNR;(RNS)NT=RN(SNT) 


注意 ， 以 上 定律 中 关于 并 和 交 的 定律 对 于 集合 与 包 也 是 成 立 的 。 

我 们 不 对 每 一 个 定律 都 一 一 加 以 证 明 ， 不 过 在 下 面 给 出 了 一 个 定律 的 证 明 。 证 明 含有 关系 
的 代数 定律 总 的 方法 是 要 证 明 左边 的 表达 式 产 生 的 每 个 元 组 也 可 由 右边 的 表达 式 可 产生 的 ， 同 
时 右边 表达 式 产 生 的 每 个 元 组 左边 表达 式 也 能 产生 。 

例 16.3 我 们 来 证 明 m 的 交换 律 : Roa S=SpqR。 

首先 假设 元 组 :在 Rm 5 的 结果 中 ， 即 在 左边 的 表达 式 中 ， 则 必 存 在 属于 R、s 属 于 $， 它 们 
在 ! 的 公共 属性 上 值 相同 。 因 此 ， 当 我 们 计算 右边 的 表达 式 Sea R 时 ， 元 组 与 /又 会 组 合 形成 1。 

我 们 可 能 会 想像 t 的 各 分 量 在 左边 公式 与 右边 公式 中 的 顺序 是 不 同 的 ， 但 在 形式 上 ， 关 系 
代数 的 元 组 没有 固定 不 变 的 属性 次 序 。 相 反 ， 我 们 可 以 自由 地 对 元 组 属性 重新 排列 ， 只 要 如 
3.1.5 节 所 述 ， 在 列 标题 中 有 相应 的 属性 名 即 可 。 

我 们 还 没有 证 完 。 由 于 我 们 的 关系 代数 是 一 个 包 的 代数 ， 而 不 是 集合 的 代数 ， 我 们 必须 证 
明 ， 如 果 在 左边 出 现 了 mn 次 ; 则 :在 右边 也 出 现 n 次 ， 反 过 来 ， 若 {在 右边 出 现 n 次 ， 则 :在 左边 也 
至 少 出 现 n 次 。 假 设 在 左边 出 现 了 nn 次， 那么 与 由 对 应 来 自 关系 R 的 元 组 必须 出 现 某 个 值 ng 次 ， 
与 由 对 应 来 自 5 的 元 组 出现 ns 次 ， 其 中 nr ns =n。 当 我 们 计算 右边 表达 式 5m4 R 时 ， 应 有 s 出 现 ns 
W, rine 次 ， 从 而 得 到 nx ns 份 的 拷贝 ， 即 有 n 个 1 元 组 拷贝 。 

我 们 仍 没 有 证 完 。 我 们 已 完成 了 证 明 的 一 半 ， 即 左边 出 现 的 每 个 元 组 也 出 现在 右边 ， 但 我 
们 还 必须 证 明 出 现在 右边 的 每 个 元 组 也 出 现在 左边 。 由 于 明显 的 对 称 性 , 论证 本 质 上 是 一 样 的 ， 
FES BRAN BER O 


FAT ATE OEE LIE TE LA - 交换 律 的 操作 符 中 。 该 操作 符 满足 交换 律 ， 


eRES=S™R 


此 外 ， 如 果 条 件 所 在 位 置 是 有 意义 的 ， 则 9 连接 也 满足 结合 律 。 但 是 ， 正 如 下 面 例子 所 指 
出 的 那样 ， 在 某 些 情况 下 ， 结 合 律 不 成 立 ， 因 为 条 件 不 能 作用 到 参与 连接 的 属性 上 去 。 







包 与 集合 的 定律 可 能 不 同 
在 把 我 们 所 热 恶 的 有 关 集 合 的 定律 应 用 到 属于 包 的 关系 上 时 ， 应 当 小 心 。 例 如 ， 体 可 
能 已 经 学 过 集合 论 中 的 定律 如 4ms(BUsC) = (AmnsB)UyC4mnyC)， 它 就 是 交 对 并 的 分 配 律 。 
该 定律 对 集合 成 立 ， 而 对 包 不 成 立 。 
举例 来 说 ， 假 设 包 A, BY C HA{x}, WANs (BUgC) = {x}Ns {x, x} = {x}, AM 
(AN sB)UsANsC) = {x} Us {x} = {Xx}， 与 左边 的 结果 {x} 是 不 同 的 。 







例 16.4 IRA =TRAR(A, b), Sb, ©, Tle, do RER 
(R Rassa S) aca T 

可 按 假设 的 结合 律 转换 成 : 
R psa (S OT) 


然而 ,我们 不 能 使 用 条 件 a<d 对 5 与 T 进 行 连接 ， 因为 a 既 不 是 5 的 属性 也 不 是 7 的 属性 。 所 
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以 9 连接 的 结合 律 不 可 随意 使 用 。 o 


16.2.2 涉及 选择 的 定律 

从 查询 优化 的 观点 来 看 ， 选 择 是 一 个 关键 的 操作 。 由 于 选择 可 以 明显 地 减少 关系 的 大 小 ， 
进行 有 效 查 询 处 理 最 重要 的 规则 之 一 就 是 只 要 不 改变 表达 式 的 结果 ， 就 把 选择 在 语法 树 上 尽 可 
能 地 下 移 。 确 实 ， 早 期 的 查询 优化 器 将 这 个 变换 的 各 种 变种 形式 作为 其 选择 良好 逻辑 计划 的 首 
要 策略 。 正 如 我 们 稍 后 指出 的 那样 , “在 语法 树 上 下 推选 择 ” 这 个 变换 并 不 十 分 通用 ， 但 “下 
推选 择 ” 的 思想 仍 是 查询 优化 的 一 个 主要 手段 。 

本 节 我 们 研究 有 关 o 操 作 符 的 定律 。 作 为 开始 ， 当 选择 条 件 较 复杂 ( 如 涉及 用 AND 或 OR 连 
接 起 来 的 条 件 ) 时 ， 将 条 件 分 解 为 其 组 成 部 分 是 有 帮助 的 。 其 动机 是 部 分 条 件 涉及 的 属性 比 整 
个 条 件 少 ， 可 移 到 某 个 方便 的 地 方 ， 而 整个 条 件 则 不 一 定 能 够 移入 。 因 此 ， 有 关 o 操作 符 的 头 
两 条 和 定律 是 分 解 律 : 


° oc, AD c2(R) = oc, (00, (R)) 


® oc, on Cs(R) = (0c, (R)) Us (oc,(R)) 


不 过 , 第 二 条 定律 只 有 在 OR 为 集合 时 成 立 。 注 意 ， 如 果 R 为 包 ， 集 合 的 并 可 能 会 错误 地 
消除 重复 。 

注意 ,C1 与 C; 的 顺序 是 灵活 的 。 例 如 ,我 们 还 可 将 上 面 的 第 一 条 定律 写成 C, 作 用 在 CC 之 后 ， 
cc(Gci(R))。 事 实 上 ， 更 一 般 地 ， 我 们 可 以 任意 交换 oa 操 作 符 的 顺序 : 


* oc, (oc,(R)) = oc, (oc,(B)) 


例 16.5 令 R(a,b,c) 是 一 关系 ， 则 Geo on os) ann occ(R) 可 分 解 为 6.1 on 。-3(O05ce(R))。 接 着 我 们 又 
可 将 这 个 表达 式 在 OR 处 分 解 为 0.1(06<e(R))U as-a(oz<(R))。 在 这 种 情形 下 ， 由 于 一 个 元 组 不 可 
能 同时 满足 a = 1 与 a = 3， 不 论 R 是 否 是 一 个 集合 ， 只 要 Was 用 作 并 ， 该 变换 总 是 成 立 的 。 然 
而 ， 总 的 来 说 ， 对 OR 的 分 解 要 求 其 参数 是 集合 并 且 使 用 Us。 

另 一 种 分 解 方法 是 把 O 作为 外 层 操 作 ， 即 (os-iok o-3(R))。 然 后 对 OR 进行 分 解 ， 得 到 
Gb<c (Oa-1(R)U aa(R))， 它 与 我 们 得 到 的 第 一 个 表达 式 等 价 ， 但 略 有 不 同 。 口 


涉及 的 另 一 类 定律 允许 我 们 对 二 元 操作 符 进行 下 推选 择 : 积 、 并 、 交 、 差 和 连接 。 有 三 
种 类 型 的 定律 ， 这 取决 于 下 推选 择 到 每 个 参数 是 可 选 的 还 是 必需 的 : 

1. 对 于 并 ， 选 择 必须 下 推 到 两 个 参数 中 。 

2. 对 于 差 ， 选 择 必须 下 推 到 第 一 个 参数 ， 下 推 到 第 二 个 参数 是 可 选 的 。 

3. 对 于 其 他 操作 符 ， 只 要 求 选 择 下 推 到 其 中 一 个 参数 。 对 于 连接 和 积 ， 将 选择 下 推 到 两 个 
参数 是 没有 意义 的 ， 因 为 参数 可 能 有 也 可 能 没有 选择 所 要 的 属性 。 四 使 可 以 同时 下 推 到 两 个 参 
数 ， 该 做 法 也 不 一 定 能 改进 计划 ， 参见 习题 16.2.1。 

因此 ， 对 于 并 的 定律 是 : 

* CARU S)= CAR) U oc(S) 

这 里 ,将 选择 移入 语法 树 的 两 个 分 枝 是 必须 的 。 

对 于 差 ， 定 律 可 以 写成 : 

e OLR- S)= OLR) - S 

当然 ， 把 选择 下 推 到 两 参数 上 也 是 允许 的 : 


mR 


* OAR — S= OAR) - a(S) 

下 面 这 些 定 律 允 许 将 选择 下 推 到 一 个 或 两 个 参数 中 。 对 于 选择 cc， 我 们 只 能 将 其 下 推 到 一 
个 包含 C 中 涉及 的 全 部 属性 的 关系 中 ， 如 果 此 关系 存在 的 话 。 假 设 关系 尽 具 有 C 中 提 及 的 全 部 属 
性 ， 我 们 列 出 如 下 定律 : 

eoc(R x S) = oc(R) x S 

+ oc(R m S) = o0(R) n S 

.oo(R GS) =00(R) TS 

e oc(RNS) =ac(R)NS 

如 果 C 只 涉及 $ 的 属性 ， 则 有 : 

* oc (Rx S)=Rx oc(S) 

其 他 三 个 操作 符 %w 、D 和 门 也 类 似 。 如 果 关 系 R 与 8 恰好 都 包含 了 C 的 属性 ， 则 可 使 用 诸 


如 下 面 所 列 的 定律 : 
+ oc(R va S) = ac(R) m oc(S) 


注意 ， 如 果 操 作 符 是 x 或 D ， 则 不 能 应 用 这 个 定律 的 变 体 ， 因 为 在 这 种 情形 下 R 与 5 没有 
公共 的 属性 。 但 是 ， 对 于 站 而 言 ， 这 个 定律 总 是 适用 的 ， 因 为 此 时 R 与 5 的 模式 必须 相同 。 
例 16.6 考虑 关系 R(a,b) 与 5(b,c) 以 及 表达 式 
O(a=1 OR a=3) AND bs<e(Rm S) 


条 件 b < < 只 能 用 到 SE, 而 条 件 a = 1 与 a = 3 只 能 用 到 R 上 。 这 样 我 们 可 像 例 16.5 的 第 一 种 可 
供 选择 的 方法 那样 由 分 解 两 个 条 件 的 AND 开 始 : 


Cao=1l OR a=3 (oo<e(R bd S)) 
RE, BATT HO, T EAS, BARA: 
Fa=1 OR a=3 (R bd Or<c(S)) 


最 后 ， 我 们 下 推 第 一 个 条 件 到 R, BB: Ca on a3 (RS <(S)。 我 们 还 可 如 例 16.5 那 样 对 
两 个 条 件 中 的 OR 进行 分 解 ， 但 这 样 做 可 能 有 好 处 也 可 能 没有 好 处 。 口 


一 些 平凡 的 定律 
我 们 不 去 陈述 关系 代数 的 每 一 个 经 过 证 明 的 定律 。 读 者 应 当 小 心 对 待 ， 尤 其 是 对 于 那 
些 针对 极端 情形 的 定律 : 空 关 系 、 条 件 总 为 真 或 总 为 假 的 选择 或 6 连接 、 包 含 全 部 属性 的 
投影 等 。 举 例 来 说 ， 下 面 是 许多 可 能 的 特殊 情形 定律 中 的 一 部 分 : 


“如 果 C 是 总 为 真 的 条 件 ( 如 : x>10 OR xs10 应 用 到 不 克 许 x=NULL 的 关系 上 )， 则 
Gc(R)=R。 
。 如 果 RR 为 空 ， 则 RUS=S。 





16.2.3 下 推选 择 
正如 我 们 提 到 的 那样 ， 在 表达 式 树 中 下 推选 择 一 一 即 用 16.2.2 节 所 述 的 一 条 规则 的 右边 表 
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达 式 蔡 换 其 左边 的 表达 式 一 一 是 查询 优化 器 最 强 有 力 的 工具 。 很 久 以 来 一 直 假 定 ， 通 过 应 用 c 
的 定律 我 们 可 以 在 那个 方向 上 进行 优化 。 然 而 ， 当 支持 视图 的 系统 变 得 普遍 时 ， 发 现在 某 些 情 
况 下 首先 选择 尽 可 能 往 树 的 上 部 移 是 很 重要 的 ， 然 后 再 把 选择 下 推 到 所 有 可 能 的 分 枝 。 用 一 个 


例子 来 说 明 如 何 适 当地 移动 选择 。 
例 16.7 假设 我 们 有 如 下 关系 : 


StarsIn(title, year, starName) 


Movie(title, year , length, inColor, studioNameProducerC# ) 


注意 ， 为 了 便于 进一步 讨论 本 例 ， 这 里 修改 了 Movie 的 前 两 个 属性 movieTitle 和 movieYear。 


定义 视图 : 
CREATE VIEW Movies0f1996 AS 
SELECT * 


FROM Movie 
WHERE movieYear = 1996; 


我 们 可 用 SQL 查询 “在 1996 年 有 哪些 影星 为 哪些 电影 制作 公司 工作 ? ”: 


SELECT starName, studioName 
FROM MoviesOf1996 NATURAL JOIN StarsIn; 


视图 Moviesof1996 用 关系 代数 表达 式 定义 为 : 


Oyear -1996 (Movie) 


因此 ， 以 上 查询 是 这 个 表达 式 与 starsIn 的 自然 连接 ， 然 后 在 属性 starName 与 
studioName 上 投影 ， 它 具有 如 图 16-6 所 示 的 表达 式 或 “逻辑 查询 计划 ”。 


在 这 个 表达 式 中 ， 仅 有 的 选择 已 经 位 于 它 可 移 人 
的 树 的 最 下 面 ， 因 此 已 无 法 “在 树 中 下 推选 择 ” 了 。 


N star Name,studioName 


然而 ， 规 则 oc(R mS) = oc(R) ma S 可 以 “ 反 过 来 ” 

用 ， 把 选择 oy。w,-19o6 放 到 图 16-6 的 连接 之 上 。 然 后 ， 由 -一 一 

于 year 是 Movie 与 StarsIn 两 者 的 属性 ， 我 们 可 以 把 vers 

选择 下 推 到 连接 结 点 的 两 个 子 结 点 。 所 得 的 逻辑 查询 Movie StarsIn 
计划 如 图 16-7 所 示 。 它 很 可 能 得 到 了 改进 ， 因 为 在 图 16-6 由 查询 与 视图 的 定义 构 
StarsIn 与 1996 年 的 电影 连接 之 前 已 减 小 了 关系 造 的 逻辑 查询 计划 


StarsIn 的 大 小 。 口 


16.2.4 涉及 投影 的 定律 

投影 可 以 像 选择 一 样 下 推 到 多 个 其 他 操作 符 中 。 
下 推 投影 与 下 推选 择 不 同 ， 当 下 推 投影 时 ， 投 影 通常 
留 在 原 处 。 换 句 话 说 ,“ 下 推 ” 投 影 确实 可 能 需要 在 一 
个 已 存在 的 投影 下 的 某 个 地 方 引 入 一 个 新 的 投影 。 


N star Name,studioName 


一 ~ 人 


下 推 投影 是 有 用 的 ， 但 一 般 而 言 不 如 下 推选 择 那 ”Oyear=1996 Oyeor=1996 
么 有 用 。 原 因 是 选择 通常 以 较 大 的 因子 减 小 关系 的 大 
小 ， 投 影 不 改变 元 组 数 ， 只 缩短 元 组 的 长 度 。 事 实 上 ， Movie StarsIn 
5.4.5 节 的 外 投影 操作 实际 上 增加 了 元 组 的 长 度 。 图 16-7 通过 在 树 中 上 移 和 下 移 
为 描述 外 投影 的 转换 ， 我 们 需要 引入 一 些 术 语 。 考 选择 来 改进 查询 计划 


eS 


虑 投影 列表 中 的 项 Ex， 其 中 E 是 一 个 属性 或 含有 属性 与 常量 的 一 个 表达 式 。 我 们 称 E 中 提 到 的 
全 部 属性 是 投影 的 输入 属性 ，x 是 一 个 输出 属性 。 若 一 个 项 是 单个 属性 的 ， 则 它 既是 输入 属性 
又 是 输出 属性 。 注 意 ， 不 可 能 存在 不 是 单个 属性 的 没有 箭头 与 重 命名 的 表达 式 ， 因 此 我 们 已 经 
覆盖 所 有 的 情形 。 

如 果 一 个 投影 列表 的 属性 构成 不 包含 更 名 或 不 是 单个 属性 的 表达 式 ， 则 我 们 称 该 投影 是 简 
单 的 。 在 严谨 的 关系 代数 中 ， 所 有 投影 都 是 简单 的 。 

例 16.8 ”投影 mo sc(R) 是 简单 的 ; ae、b 和 c 既 是 其 输入 属性 又 是 其 输出 属性 。 但 是 re-xec (R) 
不 是 简单 的 。 其 输入 属性 是 a、b 和 c， 而 其 输出 属性 是 x 和 c。 口 


投影 定律 之 后 隐藏 的 原理 是 : 

我 们 可 以 在 表达 式 树 上 的 任何 地 方 引信 投 影 ， 只 要 它 所 消除 的 属性 是 其 上 的 操作 符 从 来 
不 会 用 到 的 ， 并 且 也 不 在 整个 表达 式 的 结果 之 中 。 

在 这 些 定律 的 最 基本 形式 中 ， 所 引入 的 投影 总 是 简单 的 ， 虽 然 其 他 的 一 些 投影 可 能 不 是 简 

单 的 ， 如 下 面 的 人 : 

© T(R m 8) = a,(tu(R) earv(S)) ， 其 中 M 是 R 的 所 有 属性 列表 ， 或 者 是 连接 属性 ( 同 
属于 R 与 5 的 模式 中 ), 或 者 是 L 的 输入 属性 ，N 是 5 的 属性 列表 ,属于 连接 局 性 或 L 的 输入 
属性 。 

TL(R Ý 5)=7L (xM(R) Ù xn(S)) ,其 中 M 是 R 的 属性 列表 ,或 者 是 连接 属性 (如 在 条 
件 C 中 提 到 的 ), 或 是 L 的 输入 属性 ; N 是 5 的 属性 列表 ， 要 么 是 连接 属性 ， 要么 是 [的 输入 
属性 。 

° AL(R x 5) = ni (rm (R) x rw(S)), 其 中 MM、N 分 别 是 R 与 5 的 全 部 属性 列表 ， 且 是 的 输 
入 属性。 


例 16.9 令 R(wpc) 与 SCcde) 是 两 个 关系 。 考 虑 表达 式 fre ro(R p45)。 投影 的 输入 属性 是 a、 
2 和 e， 而 < 是 仅 有 的 连接 属性 。 我 们 可 以 应 用 下 推 投影 到 连接 之 下 的 定律 得 到 以 下 等 价 表达 式 ; 


Rater, boy (ma,b,c(R) ba Tee (S)) 


Ee, BE (ROE PEAY; 它 是 对 R 全 部 属性 的 投影 。 我 们 可 以 消除 这 个 投影 ， 得 到 第 
三 个 等 价 表达 式 ，7o4c_xxo_y(Rm Ne(S))。 也 就 是 说 ， 与 原始 表达 式 相 比 ， 仅 有 的 变化 是 我 们 在 
连接 之 前 把 属性 4 从 5 移 走 了 。 口 

此 外 ， 我 们 可 在 包 并 之 前 进行 投影 。 即 : 

* aL(RUs S) = 71(R) Us 71(S) 

另 一 方面 ， 投 影 也 不 能 被 推 到 集合 并 或 集合 、 包 的 交 或 差 之 下 。 

516.10 ” 令 R(a,b) 由 一 个 元 组 {(1,2)} 组 成 ，S(a，b) 由 一 个 元 组 {(1, 3)} 组 成 。 则 (RM5)= 
TA P=. FAM, AARNA TONADE} 口 

如 果 投 影 涉及 一 些 计 算 ， 并 且 投 影 列 表 中 某 一 项 的 输入 属性 全 部 属于 投影 下 面 连接 或 积 之 
中 的 某 一 参数 ， 则 我 们 可 选择 直接 在 那个 参数 上 进行 计算 ， 尽 管 这 不 是 必需 的 。 下 面 的 例子 有 
助 于 说 明 这 一 点 。 

例 16.11 FSRa, b, c) 与 S(c,d,e) 是 关系 ， 考 虑 连接 与 投影 raofb yz dremp R S), RNI 
可 以 把 和 a+5b 及 其 新 名 x 直接 移 到 关系 R 上 ， 类 似 地 ， 把 和 d+e 移 到 5S 上。 所 得 到 的 等 价 表达 式 


SUE FL 


是 Tzy (Tabe, e(R) Dd TWd+ey, e(S)) o 

要 处 理 的 一 种 特别 的 情形 是 如 果 x 或 ?是 c。 此 时 ， 我 们 不 能 将 求 和 式 更 名 为 c， 因 为 一 个 关 
系 不 能 同时 有 两 个 同名 为 的 属性 。 因 此 ， 我 们 必须 采用 一 个 临时 的 名 字 ， 然 后 在 连接 上 的 投 
影 中 再 做 一 次 更 名 o 例如 » Tate, dteay(R bd S) 可 变 为 下 z 一 ec， y (Tobe, c( R) Pd Td+esy, c 
(9))。 口 


下 推 投 影 到 选择 之 下 也 是 可 能 的 。 

“7L(cc(R)) =m: (oc(rm(R)) ) ， 其 中 MM 是 L 的 输入 属性 列表 或 条 件 C 中 提 到 的 属性 列表 。 

像 在 例 16.11 中 一 样 ， 我 们 可 以 将 在 列表 L 上 的 计算 移 到 列表 M 上 去 ， 只 要 条 件 C 不 需要 那 
些 包含 在 计算 中 的 7 的 输入 属性 即 可 。 

通常 ， 我们 希望 把 投影 下 推 到 表达 式 树 中 ， 即 使 在 上 面 还 必须 保留 另 一 个 投影 ， 因 为 投影 
会 减 小 元 组 的 大 小 从 而 减少 中 间 关 系 所 占用 的 块 数 。 然 而 ， 这 样 做 时 ， 我 们 必须 小 心 ， 因 为 有 
一 些 普通 的 例子 说 明 下 推 投 影 是 要 花 时 间 的 。 

例 16.12 考虑 询问 那些 在 1996 年 工作 过 的 影星 的 查询 : 

SELECT starName 

FROM StarsIn 

WHERE movieYear = 1996; 
是 关于 关系 StarsIn (movieTitle， movieYear, starName) 的 查询 。 由 该 查询 直接 翻 
译 而 得 到 的 逻辑 查询 计划 如 图 16-8 所 示 。 Teton Name 

我 们 可 以 在 选择 之 下 增加 一 个 投影 到 下 列 属性 上 : | 

1. starName， 因 为 该 属性 在 结果 中 是 需要 的 ; 和 

2. movieYear， 因 为 该 属性 在 选择 条 件 中 被 用 到 。 
该 结果 如 图 16-9 所 示 。 


OmovieVear =1996 





StarsIn 
如 果 starsIn 不 是 一 个 被 保存 的 关系 ， 而 是 用 另 一 个 操 图 16.8 例 16.12 查 询 的 
作 构 造 而 得 的 关系 ， 如 连接 操作 ， 则 图 16-9 所 示 的 计划 是 有 逻辑 查询 计划 
意义 的 。 当 连接 产生 元 组 时 ， 可 简单 地 抛弃 无 用 的 title 属 
性 ， 将 投影 作 “ 流 水 线 ” 处 理 (参见 16.7.3 节 )。 T star Name 
但 是 ,在 本 例 情形 中 ，starsIn 是 一 个 被 保存 的 关系 。 
在 图 16-9 中 较 低 处 的 投影 可 能 会 浪费 许多 时 间 ， 尤 其 是 当 在 O movieYear =1996 
movieYear 上 存在 索引 时 ， 则 基于 图 16-8 的 逻辑 查询 计划 而 
产生 的 物理 查询 计划 将 首先 使 用 索引 获取 那些 movieYear T star Name, movieYear 
等 于 1996 的 StarsIn 中 的 元 组 ， 可 能 只 是 一 小 部 分 元 组 。 如 
果 我 们 像 图 16-9 那 样 先 做 投影 ， 则 必须 从 starsIn 中 读 取 每 StarsIn 
一 个 元 组 并 进行 投影 。 图 16-9 引入 投影 后 的 结果 
更 糟 的 是 ， 在 被 投影 的 关系 Tosarwame movicrear(StarsIn) 上 ， movieYear 上 的 索引 很 可 能 是 
没有 用 处 的 ， 因 此 选择 需要 对 投影 产生 的 全 部 元 组 进行 扫描 。 . 口 


16.2.5 有 关连 接 与 积 的 定律 
我 们 在 16.2.1 节 中 已 看 到 许多 有 关连 接 与 积 的 重要 定律 : 交换 律 与 结合 律 。 当 然 还 有 另外 
一 些 定律 直接 来 自 连接 的 定义 ， 如 5.2.10 节 所 述 : 
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. R% S=ac(RxS), 
e Ro S = rr(cc(R x S)), 其 中 有 相同 名 字 的 属性 对 进行 等 值 比较 , 工 是 包含 R 与 5 中 
等 值 对 的 其 中 一 个 属性 以 及 其 余 属性 的 列表 。 

在 实际 中 ， 我 们 通常 想 从 右 到 左 使 用 这 些 规 则 。 即 我 们 把 后 面 跟着 选择 的 积 认 为 是 某 个 连 
接 。 这 样 做 的 原因 是 计算 连接 的 算法 通常 比 计算 积 之 后 跟着 一 个 对 (很 大 的 ) 结果 进行 选择 的 
算法 要 快 得 多 。 
16.26 有 关 消 除 重复 的 定律 

操作 符 6 用 于 从 包 中 消除 重复 ， 它 可 下 推 到 多 个 操作 符 中 ,但 不 是 全 部 操作 符 。 一 般 而 言 ， 
将 6 移 到 树 的 下 边 减 小 了 中 间 关 系 的 大 小 ， 因 而 可 能 是 有 好 处 的 。 此 外 ， 我 们 有 时 会 把 8 移 到 
一 个 可 以 完全 消除 的 位 置 ， 因 为 它 作 用 于 一 个 不 含 重复 元 组 的 关系 上 。 

。 若 R 没有 重复 ， 则 5 (R ) = R。 此 种 关系 R 会 有 以 下 几 种 重要 情形 : 

a) 一 个 声明 了 主键 的 存储 关系 ; 以 及 

b) 属于 7 操作 结果 的 一 个 关系 ， 因 为 分 组 创建 一 个 没有 重复 的 关系 。 

在 其 他 操作 符 中 “下 推 ”6 的 几 个 定律 如 下 : 


* SIR x S) = 6(R) x 4(S) 
a (R va S) = 6(R) va 6(S) 
© ôR% S) = 6(R) % 4(S) 
© ô(oc(R)) = oc (5(R)) 
我 们 也 可 以 把 5 移 到 交 操 作 中 的 一 个 或 两 个 参数 上 
。 6(RNB S) = (R) Ng 5 = R Ng 6(5)= 6(R) Ng 6(9) 
还 有 ， 一 般 情况 下 ，56 不 能 移 人 Us，- ;或 7 等 操作 符 中 。 
例 16.13 令 R 有 元 组 的 两 个 拷贝 ， S 有 z 的 一 个 拷贝 ， 则 CRUs S) 有 1! 的 一 个 拷贝 、 而 G(R) UB 
5S) 有 的 两 份 拷贝 。 同 时 ，6&(R - a5) 有 {的 一 份 拷贝 TXR) -AORERE 
现在 考虑 关系 T(a,b)， 含 有 元 组 (1 ，2) 与 (1，3) 各 一 份 拷 贝 ， 此 外 不 再 有 其 他 元 组 。 则 
CAs( 了 ) 有 元 组 (1) 的 一 份 拷贝 ， 而 At(5(D) 有 元 组 (1) 的 两 份 拷贝 。 口 


最 后 ， 注 意 6 与 Us、ms 或 - ;交换 没有 意义 。 因 为 产生 一 个 集合 是 保证 没有 重复 元 组 的 一 
种 方法 ， 从 而 可 以 去 除 5。 例 如 ， 

°5(RUs S)=RUs S 

然而 ， 注 意 U 或 其 他 集合 操作 符 的 实现 涉及 一 个 消除 重复 过 程 ， 这 相当 于 应 用 56。 有 关 例 
子 参看 15.2.3 节 。 
16.2.7 涉及 分 组 与 聚集 的 定律 

考虑 操作 符 ) 时 ,我们 发 现 很 多 变换 的 适用 性 取决 于 所 用 聚集 操作 符 的 细节 。 因 此 ， 我 们 
不 能 像 对 待 其 他 操作 符 定 律 那样 陈述 它 的 通用 定律 。 其 中 的 一 个 例外 是 在 16.2.6 节 中 提 到 的 定 
律 ， 即 7 吸收 85。 准确 地 说 ; 

* 8 (%4 (R))= N(R) 

另 一 个 通用 规则 是 : 在 应 用 总 作 符 之 前 ， 只 要 我 们 需要 ， 就 可 以 利用 投影 除去 参数 中 无 
用 的 属性 。 该 定律 可 写 为 ; 
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e A(R) = 和 (mn(R))， 其 中 1 是 在 区 中 提 到 的 那些 R 中 的 属性 列表 。 

其 他 变换 依赖 于 y 操 作 符 中 的 聚集 的 原因 是 某 些 聚集 一 -尤其 是 MIN 与 MAX-- 一 不 受 重复 是 
否 存在 的 影响 。 而 另 一 些 聚 集 一 一 如 SUM、COUNT 和 AVG 一 如 果 在 计算 和 聚集 之 前 消除 重复 ， 
一 般 会 得 到 不 同 的 值 。 

因此 ， 我 们 称 操作 符 % 是 不 受 重复 影响 的 ， 如 果 上 中 仅 有 的 聚集 是 MIN 与 /或 MAX。 则 有 ， 

*。X(R) = %(6(R))， 成 立 的 条 件 是 7% 不 受 重 复 影响 。 

例 16.14 假设 我 们 有 如 下 关系 


MovieStar (name, addr, gender, birthdate) 
StarsIn(movieTitle, movieYear, starName) 


我 们 想 知道 那些 出 品 于 给 定年 份 的 电影 中 最 年 轻 影星 的 生日 。 我 们 将 这 个 查询 表达 为 : 


SELECT movieYear, MAX(birthdate) “Ymovie Year, MAX (birthdate) 
FROM MovieStar, StarsIn 

WHERE name = starName 

GROUP BY movieYear ; 


直接 由 查询 语句 构造 而 得 的 初步 逻辑 查询 计划 如 图 1 


Oname=star Name 


6-10 所 示 。FROM 列 表 是 一 个 积 ，WHERE 子 句 是 积 之 上 的 一 x 
个 选择 。 分 组 与 聚集 是 用 在 它们 之 上 的 7 操作 符 表示 的 。 如 >a 
果 我 们 愿意 ， 可 应 用 到 图 16-10 之 上 的 变换 是 : MovieStar StarsIn 
1. 将 选择 与 积 组 合成 一 个 等 值 连接 。 图 16-10 例 16.14 查 询 的 初步 
2. 在 7 之 下 引入 6， 因 为 y 是 不 受 重复 影响 的 。 逐 辑 查询 计划 
3. 在 7 与 所 引入 的 6 之 间 引 入 z, 投影 到 movieYear 与 birthdate 上 ， 即 与 y 相关 的 仅 有 
的 两 个 属性 。 


所 得 的 计划 如 图 16-11 所 示 。 


‘Y movieYear, MAX(birthdate) 


N movie year, birthdate 


6 


bq 
name=star Name 
MovieStar StarsIn 
图 16-11 $16.14 查询 语句 的 另 一 个 查询 计划 

现在 我 们 可 以 下 推 5 到 mm 之 下 ,并且 如 果 需 要 ,可 在 8 之 下 引入 r。 新 得 到 的 查询 计划 如 

图 16-12 所 示 。 如 果 name 是 Moviestar 的 码 ， 则 延伸 到 这 个 关系 的 分 枝 上 的 8 可 以 去 除 。 口 
16.2.8 习题 

* 习题 16.2.1 当 可 以 下 推选 择 到 二 元 操作 符 的 两 个 参数 上 时 ， 我 们 需要 决定 是 否 这 样 做 。 


其 中 某 个 参数 存在 索引 时 是 否 需 要 下 推选 择 ? 例如 ， 考 虑 表达 式 oc(RN 5S)， 其 中 S 上 有 
个 索引 。 
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习题 16.2.2 给 出 例子 证 明 : Y movie Year, MAX (birthdate) 
* a) 投影 不 能 下 推 到 集合 并 之 下 。 


b) 投影 不 能 下 推 到 集合 差 或 包 差 之 下 。 Tinovie Year tirthdate 

c) 消除 重复 (5 ) 不 能 下 推 到 投影 之 下 。 l 

d) 消除 重复 不 能 下 推 到 包 并 或 包 差 之 下 。 name= aar Name 
! 习题 16.2.3 ”证 明 我 们 总 是 可 以 下 推 投影 到 包 并 的 — 


党 


* 


两 个 分 枝 之 下 。 9 ô 
习题 16.2.4 。” 某 些 集合 的 定律 也 适用 于 包 ; 某 些 则 | 
不 然 。 下 面 的 每 条 定律 对 于 集合 都 是 正确 的 ， 判定 Nbirthdatename Tmovieyear,star Name 
对 包 是 否 也 正确 。 对 包 是 正确 的 定律 给 出 证 明 ， 或 | | 





给 出 一 个 反例 。 MovieStar Starsin 
* a)RUR=R (FEWER) 图 16-12 例 16.14 的 第 三 个 查询 计划 
b) ROR = R COMES EH) 
c)R-R=6 


d )RU(SNT)=(RU5N(RUT)( 并 对 交 的 分 配 律 ) 
习题 16.2.5 ”我 们 可 按 以 下 方式 定义 包 的 < : RES 当 且 仅 当 对 于 每 个 元 素 r，x 在 R 中 出 现 
的 次 数 少 于 或 等 于 它 在 8 中 出 现 的 次 数 。 判 定 以 下 陈述 (对 于 集合 全 真 ) 对 于 包 是 否 全 真 ; 给 
出 证 明 或 反例 : 
a) F RcS ， 则 RUS=S 
b) 车 RES ， 则 RNMS=R 
c) 4 RCS HSSR, WR=5 
习题 16.2.6 针对 表达 式 m(R(a,b,c)m S(b,c,d,e)), RARE FHERY, Hebe. 
* a)b+cx, c+d—y 
b) a,b,a+d—z 809 
习题 16.2.7 ”我 们 曾 在 例 16.14 中 提 到 ， 我们 所 给 出 的 计划 没有 一 个 是 必然 最 佳 的 计划 。 你 
能 想 出 一 个 较 好 的 计划 吗 ? 
习题 16.2.8 下面 是 有 关 关系 R (a,b) 操作 的 一 些 等 式 。 判 定 它们 是 否 为 真 ; 给 出 证 明 或 举 
出 反例 。 
a) YMIN(a)—>y, 2 (Yo, suM(6)+2(R)) = Yy,sum(s) 2 (Ym IN(0)-—+y, 6(R)) 
b) YMIN(a}>y, 2 (Yo, MAX(6)o2(R)) = W, MAXi) (YM TINGe) sy, 6(R)) 
习题 16.2.9 “习题 15.2.4 中 类 似 连 接 的 操作 符 服从 某 些 熟知 的 定律 ， 其 他 的 操作 符 则 不 然 。 
判定 下 面 每 一 个 式 子 是 否 成 立 。 对 于 成 立 的 定律 给 出 证 明 ， 和 否则 给 出 反例 。 
a) ac(R D< S) = a0(R) >x< S 
b) oc (R&S) =ac(R) &S 
c) oc(R &, S) = oc(R) &, S, 其 中 C 只 包含 R 的 属性 
d) oc(R &, S$) = R h, oc(5), 其 中 C 只 包含 5 的 属性 
) 


e (RE<S) = mi (R)P<S 


co 
~ 
> 
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* f) (R&S) uT=R mă (8% T) 
g) RaS=S AR 
h) Rw, S=S%,R 
i) RXS=S9R 


16.3 从 语法 分 析 树 到 逻辑 查询 计划 


我 们 现在 继续 查询 编译 器 的 讨论 。 在 16.1! 节 中 已 经 构造 了 一 个 查询 语句 的 一 棵 分 析 树 ， 下 一 
步 我 们 需要 把 分 析 树 转换 成 所 希望 的 逻辑 查询 计划 。 这 需要 分 两 步 ， 正 如 图 16-1 中 所 提示 那样 。 
第 一 步 ， 按 适当 的 组 用 一 个 或 多 个 关系 代数 操作 符 替 换 分 析 树 上 的 结 点 与 结构 。 我 们 将 提 
示 这 些 规则 中 的 某 一 些 , 其余 的 一 些 留 作 练习 。 第 二 步 ， 利用 第 一 步 中 产生 的 关系 代数 表达 式 ， 
将 其 转换 成 我 们 所 期 望 的 一 个 表达 式 ， 它 可 转换 成 最 有 效 的 物理 查询 计划 。 
16.3.1 转换 成 关系 代数 
现在 我 们 非 正式 地 说 明 将 SQL 分 析 树 转换 成 代数 逻辑 查询 计划 的 一 些 规则 。 第 一 条 规则 ， 
可 能 也 是 最 重要 的 ,使 我 们 能 够 直接 将 所 有 “简单 的 ” select-from-where 结 构 转 换 成 关系 代数 。 
规则 可 非 正式 地 陈述 为 : 
“ 如果 有 一 个 属于 <SFW> 成 分 的 <Query> ， 并 且 该 成 分 中 的 <Condition> 没 有 子 查询 ， 则 可 
以 用 一 个 关系 代数 表达 式 来 替换 整个 成 分 一 一 select 列 表 、from 列 表 以 及 条 件 ， 其 中 代数 
表达 式 自 底 向 上 由 以 下 内 容 组 成 : 
1. <FromList> 中 提 及 的 全 部 关系 的 积 是 以 下 操作 符 的 参数 ， 
2. 选择 ac， 其 中 C 就 是 要 被 替换 成 份 中 的 <Condition> 表 达 式 ， 同 时 ， 选择 又 是 下 面 操作 
符 的 参数 : 
3. 投影 五 ， 其 中 是 <SelList> 中 的 属性 列表 。 
例 16.15 ”让 我 们 考虑 如 图 16-5 所 示 的 分 析 树 。 select-from-where 变 换 应 用 到 图 16-5 的 整 棵 
分 析 树 上 。 我 们 取 from 列 表 中 两 个 关系 StarsIn 与 Moviestar 的 积 ， 用 根 为 <Condition> 的 子 
树 中 的 条 件 作 选 择 ,并 投影 到 select 列 表 tit1le 上 。 
所 得 关系 代数 表达 式 如 图 16-13 所 示 ， 
同样 的 变换 不 能 应 用 到 图 16-3 所 示 的 外 层 查 
询 上 。 原 因 是 条 件 中 包含 一 个 子 查询 。 我 们 将 在 
16.3.2 节 中 讨论 如 何 处 理 带 有 子 查询 的 条 件 ， 你 


N movieTitte 


Ostar Name=name AND birthdate LIKE ”%1960? 


x 
应 当 查 看 有 关 “ 选 择 条 件 的 限制 ”的 文本 框 以 得 a N 
到 为 什么 对 有 子 查询 与 无 子 查询 的 条 件 加 以 区 别 StarsIn MovieStar 
的 解释 。 


然而 ， 我 们 可 以 将 select-from-where 规则 应 图 16-13 把 分 析 树 转换 成 代数 表达 式 树 


用 到 图 16-3 所 示 的 子 查询 上 。 我 们 从 子 查 询 得 到 的 关系 代数 表达 式 是 mane(Osrmane vies" 81960 
(MovieStar))。 口 


16.3.2 从 条 件 中 去 除 子 查询 

对 于 <Condition> 中 包含 子 查询 的 分 析 树 ， 我 们 将 引入 操作 符 的 中 间 形 式 ， 它 介 于 分 析 树 
的 分 析 类 与 作用 到 关系 上 的 关系 代数 操作 符 之 间 。 该 操作 符 通常 称 为 两 参数 选择 。 我 们 将 用 不 
带 参数 的 标记 为 o 的 结 点 表示 经 转换 后 的 分 析 树 中 的 两 参数 选择 。 该 结 点 之 下 有 一 个 左 子 结 点 ， 


它 表示 要 对 其 做 选择 操作 的 关系 R; 以 及 一 个 右 子 结 点 ， 它 表示 作用 到 关系 R 的 每 个 元 组 上 的 
条 件 表达 式 。 两 个 参数 均 可 表示 为 分 析 树 、 表 达 式 树 或 两 者 的 混合 。 

例 16.16 图 16-14 所 示 的 是 图 16-3 使 用 两 参数 选择 对 分 析 树 的 重 写 。 由 图 16-3 构 造 图 16-14 
时 进行 了 多 种 变换 . 

1. 图 16-3 中 的 子 查询 被 一 个 关系 代数 表达 式 所 替换 ， 已 在 例 16.15 的 末尾 讨论 过 。 

2. 外 层 查 询 也 已 经 用 16.3.1 节 的 select-from-where 表 达 式 规则 做 了 替换 。 不 过 ， 我 们 已 将 必 
需 的 选择 表示 为 两 参数 选择 ， 而 不 是 常规 的 关系 代数 操作 符 o。 因 此 ， 标 有 <Condition> 的 分 析 
树 的 上 层 结 点 没有 被 替换 ， 而 仍旧 作为 选择 的 一 个 参数 ， 其 表达 式 的 某 部 分 按 第 1 点 被 关系 代 
WR, 

这 棵 树 需 要 作 进 一 步 转换 ， 在 后 面 讨论 。 口 


我 们 需要 能 够 用 单 参数 选择 与 其 他 关系 代数 操作 符 来 替换 两 参数 选择 的 规则 。 每 种 条 件 形 
式 需 要 其 自身 的 规则 。 在 通常 情况 中 , 去 除 两 参数 选择 并 得 到 纯 关 系 代 数 表达 式 是 可 能 的 。 然 
而 ， 在 一 些 极端 情形 下 ， 两 参数 选择 可 任 其 原样 保留 ， 并 认为 是 逻辑 查询 计划 的 一 部 分 。 


选择 条 件 的 限制 
有 人 可 能 感到 疑惑 ， 为 什么 我 们 不 允许 选择 操作 符 ac 中 的 C 包 含 子 查询 ， 在 关系 代 
数 中 ， 一 个 操作 符 的 变 元 (argument) 不 在 下 标 中 出 现 的 成 分 一 一 习惯 上 可 以 产生 关系 
的 表达 式 。 另 一 方面 ， 参 数 (parameter) 一 一 出 现在 下 标 中 的 成 分 一 一 不 同 于 关系 ， 它 具有 
类 型 。 例 如 ，Gc 中 的 参数 C 是 布尔 值 条 件 ， 而 中 的 参数 L 是 属性 列表 或 公式 。 
如 果 我 们 遵循 这 个 习惯 ， 则 一 个 参数 所 隐 含 的 无 论 是 什么 计算 均 可 应 用 到 关系 自 变 


量 的 每 一 个 元 组 上 。 这 种 对 参数 使 用 的 限制 简化 了 查询 优化 。 作 为 对 比 ， 假 定 我 们 可 有 
像 oc(R) 的 一 个 操作 符 ， 其 中 C 包 含 一 个 子 查询 。 则 将 C 应 用 到 RR 的 每 个 元 组 涉及 计算 子 查 
询 。 我 们 要 为 R 的 每 个 元 组 重新 计算 它 吗 ? 那 将 是 不 必要 的 巨大 开销 ， 除 非 该 子 查询 是 
相关 的 ， 例 如 其 值 依赖 于 查询 语句 之 外 所 定义 的 某 些 值 ， 如 图 16-3 的 子 查询 依赖 于 
starName 的 值 。 大 部 分 情形 下 ， 即 便 是 相关 子 查询 也 无 需 对 每 个 元 组 重新 计算 ， 条件 
是 我 们 正确 地 组 织 计算 。 


我 们 将 举例 给 出 处 理 图 16-14 中 涉及 IN 操 TmovieTitte 
作 符 条 件 的 规则 。 注 意 ， 这 个 条 件 中 的 子 查询 
是 不 相关 的 ， 即 该 关系 可 以 只 计算 一 次 ， 与 要 





被 检测 的 元 组 无 关 。 消 除 这 种 条 件 的 规则 可 做 A N 
如 下 非 正 式 陈述 : StarsIn <Condition> 
。 假 设 我 们 有 一 个 两 参数 选择 ， 其 中 第 一 
个 参数 代表 某 个 关系 R， 第 二 个 参数 是 一 <Tuple> IN name 
个 形 如 t IN $ 的 <Condition> ， 其 中 表达 式 | 
S 是 一 个 非 相 关子 查询 ，! 是 R 的 ( 某 些 ) 属 <Attribute> Opirthdate LIKE )%1960， 
性 组 成 的 一 个 元 组 。 我 们 按 如 下 方式 对 
树 作 变换 : starName MovieStar 
a) 用 3$ 的 表达 式 的 树 替 换 <Condition>。 图 16-14 使 用 两 参数 c 的 表达 式 ， 


如 果 $ 有 重复 ， 则 在 $ 的 表达 式 的 根部 有 必要 包 介 于 分 析 树 与 关系 代数 之 间 








N 
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813|] 含 一 个 6 操作 ， 因 此 所 形成 的 表达 式 所 产生 的 元 组 拷贝 不 会 多 于 原始 查询 所 产生 的 。 
b) 用 一 个 单 参 数 选 择 Gc 蔡 换 两 参数 选择 ， 其 中 C 是 元 组 的 每 个 分 量 与 关系 S 中 相应 的 属 
ell 
c) 给 cc 一 个 参数 ， 它 是 R 与 $ 的 积 。 
图 16- isthe 了 这 个 转换 。 


z, 
A AA 


图 16-15 本 规则 处 理 涉及 IN 条 件 的 两 参数 选择 


例 16.17 考虑 图 16-14 中 的 树 ， 我 们 将 上 面 所 描述 的 T movieTile 
用 于 IN 条 件 的 规则 应 用 到 该 树 上 。 在 这 个 图 中 ， 关 系 R 是 
StarsIn, 关系 是 由 以 zm 为 根 的 子 树 所 构成 的 关系 代 starna name 
数 表达 式 的 结果 。 元 组 有 一 个 分 量 ， 即 属性 starName。 N 


两 参数 选择 被 OstarName=name 所 和 替换; 它 的 条 件 C 是 元 组 StarsIn T name 
! 的 一 个 分 量 与 查询 S 的 结果 的 属性 取 等 值 。o 结 点 的 子女 od SaS 
是 一 个 x 结 点 , X 结 点 的 参数 是 标 有 Starstin 的 结 点 以 birthdate LIKE '%196 


及 5 的 表达 式 的 根 。 注 意 , 由 于 Mam Æ Moviestar 的 MovieStar 

码 ， 没 有 必要 在 S RIAL S| ABR ARTE 6。 新 图 16-16 应 用 IN 条 件 规则 

的 表达 式 如 图 16-16 所 未 。 它 完全 是 关系 代数 ， 且 等 价 于 

图 16-13 中 的 表达 式 ， 尽 管 其 结构 很 不 相同 。 口 


当 子 查询 相关 时 ， 将 子 查询 翻译 成 关系 代数 的 策略 更 为 复杂 。 由 于 相关 子 查询 涉及 在 其 之 
外 定义 的 未 知 值 ， 它 们 不 能 进行 孤立 的 翻译 。 确 切 地 讲 ， 我 们 需要 对 子 查询 进行 翻译 ， 使 得 它 
能 产生 一 个 出 现 了 某 些 特定 的 额外 属性 的 关系 ， 这 些 属性 在 以 后 将 与 外 部 定义 的 属性 相 比 较 。 
然后 把 从 子 查询 到 外 部 属性 的 相关 属性 的 条 件 应 用 到 这 个 关系 上 ， 不 再 需要 的 额外 属性 可 以 投 
影 消除 。 在 这 个 过 程 中 ， 如 果 该 查询 在 最 后 没有 消除 重复 ， 我 们 必须 小 心 不 经 意 引 入 的 重复 元 

814| 组。 下面 这 个 例子 说 明了 这 项 技术 。 

例 16.18 ”考虑 查询 “ 找 出 那些 在 制作 时 影星 的 平均 年 龄 至 多 为 40 的 电影 "。 图 16-17 是 该 
查询 的 SQL 表示 。 为 简化 起 见 ， birth- SELECT DISTINCT mi .movieTitle, mi.movieYear 
date 作 为 出 生年 ， 这 样 我 们 可 以 取 其 平均 得 ”| FROM Starsin mi 





到 一 个 值 ， 用 于 与 srarsTn 的 属性 wovie- | WPRE m noviotear z #0 < ( 
Yeaz 相 比较 。 我 们 所 写 查询 中 每 一 个 对 三 个 FROM StarsIn m2, MovieStar s 
关系 的 引用 都 有 其 自身 的 元 组 变量 ， 其 目的 是 ne = nd movieTitle AND 
用 于 提醒 我 们 各 个 属性 来 自 何 处 。 ml.movieYear = m2.movieYear 

图 16-18 显 示 了 对 查询 进行 语法 分 析 以 及 部 ds 


分 翻译 成 关系 代数 后 的 结果 。 在 这 个 初步 翻译 图 16-17 找 出 年 长 影星 出 演 的 电影 


过 程 中 ， 我 们 把 子 查询 的 WHERE 子 句 分 解 成 两 个 ， 并 使 用 该 子 句 的 一 部 分 把 关系 的 积 转换 成 等 号 
连接 。 我 们 在 这 棵 树 的 结 点 上 保留 了 别名 ml 、m2 与 s， 目的 是 使 每 个 属性 的 来 源 更 清晰 。 另 一 种 
方法 是 ， 我 们 还 可 使 用 投影 来 更 新 属性 名 ， 从 而 避免 属性 名 的 冲突 ， 但 其 结果 将 更 加 难以 理解 。 

为 了 移 去 <Condition> 结 点 并 消除 两 参数 G6， 我 们 需要 创建 一 个 用 于 描述 <Condition> 右 分 枝 
上 关系 的 表达 式 。 然 而 ， 由 于 子 查询 是 相关 的 ， 无 法 从 子 查 询 中 所 涉及 的 关系 中 获得 属性 [815 
ml .movieTitle 或 m1 .movieYear， 这 些 关 系 是 starsIn( 别 名 是 m2 ) 与 MovieSstar。 因 
此 ， 我 们 需要 延迟 选择 ora movie itte=ml.movieTitle AND m2.movie Year=mI movieYear > 直到 子 查询 中 的 关系 与 外 层 查 
询 中 starsIn 的 拷贝 (其 别名 为 m1 的 拷贝 ) 相 结合 之 后 。 为 按 这 种 方式 转换 逻辑 查询 计划 ， 我 
们 需要 修改 y 按 属性 m2 .movieTitle 与 mn2 .movieYear 进 行 分 组 ， 所 以 当选 择 需要 这 些 属性 
时 ， 它 们 便 可 获得 。 最 后 的 效果 是 我 们 为 子 查询 计算 一 个 由 电影 组 成 的 关系 ， 其 每 个 元 组 由 名 
字 、 年 份 以 及 该 电影 的 平均 影星 出 生年 份 组 成 。 

修改 后 的 group-by 操 作 符 出 现在 图 16-19 中 ; 除了 两 个 分 组 属性 外 ， 我 们 需要 把 (平均 出 生 
日 期 ) 平均 值 更 名 为 abd 以 便 后 面 引 用 。 图 16-19 也 显示 了 完全 翻译 后 的 关系 代数 。 在 ) 之 上 ， 
外 层 关系 的 StarsIn 与 子 查询 的 结果 相连 接 。 子 查询 的 选择 接着 作用 到 StarsTin 与 子 查询 结 
RARE; 我们 把 这 个 选择 表示 为 6- 连接 ， 在 正常 应 用 代数 定律 后 就 会 如 此 。 在 8- 连接 之 上 是 
吸 一 个 选择 ， 这 个 选择 对 应 于 外 层 查 询 的 选择 。 在 这 个 选择 中 ， 我 们 把 电影 的 year 与 它 的 影星 
平均 出 生年 份 进行 比较 。 代 数 表达 式 在 分 析 树 顶 部 结束 ， 这 类 似 于 图 16-18 所 示 的 表达 式 ， 投 
影 到 所 期 望 的 属性 上 并 消除 重复 。 


oo 
_ 
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T ml.movieTitle, ml.movieYear 


o 
StarsIn ml <Condition> 


一 个 


_ < Y AVG(s.birthdate ) 
| | 


ml.movieYear 40 5 m2.movieTitle = ml.movieTitle AND m2.movieYear = ml.movieYear 


| 


m2.starName = s.name 


Starsin m2 MovieStar s 
图 16-18 图 16-17 经 部 分 转换 后 的 分 析 树 


正如 我 们 将 在 16.3.3 节 看 到 的 那样 ， 一 个 查询 优化 器 改进 查询 计划 还 有 许多 可 做 的 事情 。 
这 个 特殊 的 例子 满足 了 三 个 条 件 ， 使 我 们 可 以 对 查询 计划 作 很 大 的 改进 。 这 些 条 件 是 ; 

1. 重复 是 最 后 消除 的 ; 

2. StarsIn ml 中 的 影星 名 字 被 投影 掉 了 ; IFA 

3.Starsin mil 与 剩余 表达 式 之 间 的 连接 将 starsIn ml 中 的 title、 year 属 性 与 StarsIn 
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m2 中 的 属性 取 等 值 。 








Tint. movieTitle, m1. movie Year 
Oml. movie ¥ear-40< abd 
bd 
m2, movieTitle = m1. movieTitle AND m2. movie Year = ml. movie Year 
Starsin mi Ym2. movieTitle, m2. movie Year, Avg(s. birthdatey—rabd 
D< 
m2. starName = s.name : 


StarsIn m2 MovieStar s 


图 16-19 把 图 16-18 转 换 成 逻辑 查询 计划 


由 于 这 些 条 件 成 立 ,我 们 可 以 分 别 用 m2 .Title 与 m2 .Year 替 换 m1. Titie 与 ml .Year。 
因此 ， 图 16-19 中 上 部 的 连接 是 不 必要 的 ， 参 数 StarsTIn ml1 亦 如 此 。 该 逻辑 查询 计划 如 图 


16-20 所 示 。 口 ; 
16.3.3 逻辑 查询 计划 的 改进 | 
当 我 们 把 查询 语句 转换 为 关系 代数 时 获得 了 一 个 可 Tid, movieTtey m2. novieYear 


能 的 逻辑 查询 计划 。 下 一 步 是 利用 在 16.2 节 中 列 出 的 代 
数 定律 重 写 计划 。 另 外 ,我 们 可 能 产生 多 个 逻辑 计划 ， 
表示 不 同 的 操作 符 顺序 或 组 合 。 但 是 在 本 书 中 我 们 假设 
查询 重 写 模块 选取 它 认 为 是 “最 佳 ”的 单个 逻辑 查询 计 Yo. none nd men, vet hy 
划 ， 其 含义 是 该 计划 很 可 能 最 终 得 到 最 便宜 的 物理 计划 。 | 
然而 ， 我 们 没有 考虑 称 为 “连接 顺序 ”的 问题 ， 因 be 
此 ， 涉 及 多 个 连接 关系 的 一 个 逻辑 查询 计划 可 视 为 一 簇 ~ 
计划 ， 与 不 同 的 方法 相对 应 ， 连 接 可 被 排序 和 分 组 。 在 Starsin m2 Moviestar s 
16.6 节 我 们 讨论 如 何 选择 连接 顺序 。 类 似 地 ， 一 个 查询 图 1620 图 16.19 的 简化 
计划 涉及 三 个 或 更 多 关系 ， 这 些 关 系 作为 其 他 满足 结合 
律 和 交换 律 的 操作 符 的 参数 ， 例 如 并 ， 当 我 们 把 逻辑 计划 转换 为 物理 计划 时 应 当 假 定 允 许 重新 
排序 或 重新 分 组 。 我 们 在 16.4 节 中 讨论 有 关 排 序 与 物理 计划 选择 等 问题 。 
16.2 节 中 有 许多 代数 定律 有 望 改进 逻辑 查询 计划 。 下 列 定律 是 优化 器 中 最 常用 到 的 ， 
“选择 要 尽 可 能 深 地 下 推 人 表达 式 树 中 。 如 果 一 个 选择 条 件 是 多 个 条 件 的 AND， 则 可 以 把 
该 条 件 分 解 并 分 别 将 每 个 条 件 下 推 。 这 个 策略 很 可 能 是 最 有 效 的 改进 技术 ， 但 我 们 应 当 
记 起 16.2.3 节 中 的 讨论 ， 在 那里 我 们 看 到 ， 在 某 些 情形 下 首先 在 树 中 上 推选 择 是 必要 的 。 
“类似 地 ， 投 影 可 被 下 推 到 树 中 ， 或 新 的 投影 可 被 加 入 。 至 于 有 选择 时 下 推 投影 应 当 小 心 ， 
如 16.2.4 节 所 述 。 
“重复 的 消除 有 时 可 以 消去 ， 或 移 到 树 中 更 方便 的 位 置 ， 如 16.2.6 节 所 述 。 





Cm? movie ear-40 < abd 





。 某 些 选择 可 以 与 其 下 面 的 积 相 结合 以 便 把 操作 对 转换 成 等 值 连接 。 一 般 而 言 ， 计 算 等 值 


连接 比 之 于 分 别 计 算 两 个 操作 要 有 效 得 多 。 我 们 已 TmovieTitke 
在 16.2.5 节 讨论 过 这 些 定律 。 
例 16.19 考虑 如 图 16-13 所 示 的 查询 。 首 先 ， 我们 可 oe re 

以 把 选择 的 两 部 分 分 解 成 OstarName=name 和 Obirhdate LIKE '%1960'o a NN. 
后 者 可 以 下 推 到 树 中 ， 因 为 所 涉及 的 仅 有 属性 birth- StarsIn  Obirthdate LIKE 以 1960， 
date 来 自 关 系 MovieStar。 第 一 个 条 件 涉及 积 两 边 的 
属性 ， 但 它们 取 等 值 ， 因 此 积 与 选择 从 为 一 个 等 值 连接 。 MovieStar 
这 个 变换 的 结果 如 图 16-21 所 示 。 口 图 16-21 查询 重 写 的 结果 


16.3.4 结合 /交换 操作 符 的 分 组 

常规 语法 分 析 器 不 能 产生 其 结 点 可 有 数目 不 限 的 子女 的 树 。 因 此 ， 操 作 符 仅 以 一 元 或 二 元 
形式 出 现 是 正常 的 。 然 而 ， 满 足 结合 律 与 交换 律 的 操作 符 可 视 为 具有 任意 多 个 操作 数 。 此 外 ， 
将 诸如 连接 的 操作 符 看 做 多 路 操作 符 有 利于 我 们 重新 对 操作 数 排序 。 这 样 ， 当 连接 作为 一 个 二 
元 连接 序列 执行 时 ， 它 们 所 花 的 时 间 将 比 按 语法 分 析 树 所 隐 含 的 连接 顺序 的 执行 时 间 少 。 我 们 
在 16.6 节 讨论 多 路 连接 的 排序 。 

这 样 ， 我 们 在 产生 最 终 的 逻辑 查询 计划 之 前 进行 最 后 一 步 : 对 于 由 相同 结合 性 与 交换 性 操 
作 符 结 点 组 成 的 子 树 的 每 一 部 分 , 我 们 将 具有 这 些 操作 符 的 结 点 组 合成 单个 具有 多 子女 的 结 点 。 
回想 一 下 ， 常 用 的 满足 结合 律 与 交换 律 的 操作 符 是 自然 连接 、 并 与 交 。 在 特定 情形 下 ， 自 然 连 
接 与 9 连接 可 以 相互 结合 : 

1. 我 们 必须 用 9 连接 蔡 换 自然 连接 ,将 具有 相同 名 字 的 属性 取 等 值 。 

2. 我 们 必须 增加 一 个 投影 以 便 消除 已 变 为 6 连接 的 自然 连接 中 涉及 重复 属性 。 819 

3. 连接 的 条 件 必 须 具 有 结合 性 。 回 忆 一 下 ， 如 16.2.1 节 曾 讨论 的 ， 存 在 6 连接 不 满足 结合 律 
的 情形 。 

此 外 ， 乘 积 可 被 认为 是 自然 连接 的 特例 ， 并且 ， 如 果 在 树 中 与 连接 相 邻 则 与 连接 相 结合 。 
图 16-22 说 明了 这 种 变换 ， 该 变换 进行 的 情景 是 其 逻辑 查询 计划 有 一 两 个 并 操作 符 聚 成 的 簇 以 及 
由 三 个 自然 连接 操作 符 聚 成 的 和 能。 注意 ,字母 尽 到 W 代表 任意 表达 式 ， 不 一 定 是 存储 的 关系 。 


SN AN 
AAA P? NT 
AOS A 
入 


图 16-22 产生 逻辑 查询 计划 的 最 后 一 步 : 组 合 结合 律 与 交换 律 的 操作 符 
16.3.5 习题 


习题 16.3.1 ”将 下 述 表 达 式 中 的 自然 连接 用 等 价 的 6 连接 与 投影 替换 。 说 明 所 得 的 6 连接 是 
否 形成 了 一 个 满足 交换 律 与 结合 律 的 分 组 : 


526 l Z 16 =F 





* a) (R(a,b) oa S(b,c)) s ere Tle,d). 
b) (R(a, b) bs S(b, c)) ea (T (e, d) œa U (d, e)). 
ES) (R(a, b) ba S(b, c)) m (T (c, d) m U (a, d)). 


习题 16.3.2 ”将 习题 16.1.3(a) 与 (b) 的 语法 树 转换 成 关系 代数 。 对 于 (b)， 写 出 两 参数 选择 形 
式 以 及 最 终 转 换 成 单 参数 (常规 cc ) 选 择 的 形式 。 
习题 16.3.3 ”给 出 一 条 规则 用 于 把 下 面 形式 的 每 一 <Condition> 转 换 成 关系 代数 。 所 有 条 件 
均 可 假定 是 (通过 一 个 两 参数 选择 ) 作 用 到 一 个 关系 R 上 。 你 可 以 假设 子 查 询 与 R 不 相关 。 小 
心 不 要 引入 或 消除 有 悖 于 SQL 形式 定义 的 重复 。 
* a) 形 如 EXISTS (<Query>) 的 条 件 。 

b) 形 如 a = ANY<Query> 的 条 件 ， 其 中 a 是 R 的 一 个 属性 。 

c) 形 如 a = ALL<Query> 的 条 件 ， 其 中 a 是 R 的 一 个 属性 。 
习题 16.3.4 ”重复 习题 16.3.3, 但 允许 子 查询 与 R 相 关 。 为 简便 起 见 ， 你 可 假定 子 查 询 具 有 
本 节 所 述 的 简单 的 select-from-where 形 式 ， 没 有 进一步 的 子 查 询 。 
习题 16.3.5 ”在 图 16-22 右 边 的 分 组 树 可 由 多 少 种 不 同 的 表达 式 树 得 到 ? 记 住 分 组 后 子女 结 
点 的 次 序 未 必 反 映 了 原始 表达 式 树 的 次 序 。 


16.4 操作 代价 的 估计 


假设 我 们 已 对 一 个 查询 进行 了 语法 分 析 并 将 之 转换 成 一 个 逻辑 查询 计划 。 进 一 步 假 定 我 们 
已 把 所 选择 的 变换 应 用 于 构造 所 期 望 的 逻辑 查询 计划 中 。 下 一 步 我 们 必须 把 逻辑 计划 转换 成 物 
理 计划 。 通常 我 们 考察 由 逻辑 计划 派生 而 得 的 多 个 不 同 物理 计划 ,并 对 每 个 物理 计划 进行 评价 ， 
或 估计 实现 这 个 转换 的 代价 。 经 过 这 种 评价 ， 通 常 称 为 基于 代价 的 枚 举 ， 我们 选择 具有 最 小 估 
计 代价 的 物理 查询 计划 。 当 对 由 给 定 逻 辑 计 划 导 出 的 可 能 的 物理 计划 进行 枚 举 时 ， 我 们 为 每 个 
物理 计划 选择 : 

1. 满足 结合 律 与 分 配 律 的 操作 如 连接 、 并 和 交 的 次 序 与 分 组 。 

2. 在 逻辑 计划 中 每 个 操作 符 的 算法 ， 例 如 ， 决 定 使 用 拱 套 循环 连接 或 散 列 连接 。 

3. 其 他 操作 符 一 扫描 、 排 序 等 一 -是 物理 计划 所 需要 的 组 ， 在 逻辑 计划 中 都 不 显 式 地 存在 。 

4. 参数 从 一 个 操作 符 传 送 到 下 一 个 操作 符 的 方式 ， 例 如， 通过 在 磁盘 上 保存 中 间 结 果 或 者 
通过 使 用 选 代 算 子 (iteratom ， 并 每 次 传 给 参数 一 个 元 组 一 个 主 存 缓冲 区 。 

我 们 将 逐个 考虑 这 些 问 题 。 然 而 ， 为 了 回答 与 每 项 选择 相关 联 的 问题 ， 我 们 需要 知道 各 个 
物理 计划 的 代价 是 多 少 。 在 没有 执行 计划 情况 下 ， 我 们 不 能 准确 地 知道 其 代价 ， 对 于 一 个 查询 
我 们 当然 不 想 执行 多 个 计划 。 因 此 ， 在 计划 还 没有 执行 的 情况 下 就 要 对 它 的 代价 进行 评估 。 

在 讨论 物理 计划 枚 举 之 前 ， 首 先 必须 考虑 如 何 准 确 估计 这 些 计 划 的 代价 。 这 种 估计 是 基于 
数据 的 参数 (参见 “概念 评论 ” 框 )， 这 些 参 数 要 么 精确 地 由 数据 计算 而 得 ， 要 么 是 由 16.5.1 节 
讨论 的 “统计 量 收集 ”过 程 来 估计 。 在 给 定 这 些 参数 值 的 情况 下 ， 我 们 可 以 对 关系 大 小 作 许多 
合理 的 估计 ， 它 们 可 用 于 估计 完整 物理 计划 的 代价 。 

16.4.1 中 间 关 系 大 小 的 估计 

对 物理 计划 作 选 择 的 目的 是 最 小 化 执行 查询 的 代价 。 不 管 使 用 什么 方法 来 执行 ， 也 不 管 查 
询 计划 的 代价 如 何 估计 ， 对 计划 的 代价 有 重要 影响 的 是 中 间 关 系 的 大 小 。 

理想 的 情况 是 我 们 可 得 到 估计 中 间 关 系 中 元 组 数 的 规则 ， 这 些 规 则 应 : 


1. 给 出 准确 的 估计 。 

2. 易 于 计算 。 

3. 逻辑 上 一 致 ， 即 ， 一 个 中 间 关 系 大 小 的 估计 不 依赖 于 该 关系 的 计算 方式 。 例 如 ， 多 个 关 
系 连接 的 大 小 估计 不 应 当 依赖 于 我 们 计算 这 些 关 系 连接 的 次 序 。 

但 是 不 存在 满足 这 三 个 条 件 一 致 认同 的 方法 。 我们 将 给 出 一 些 适合 于 大 多 数 情况 的 简单 规则 。 
幸好 ， 大 小 估计 的 目标 不 是 准确 估计 大 小 ， 而 是 帮助 选择 一 个 物理 查询 计划 。 即 便 是 一 个 不 准确 
的 大 小 估计 方法 也 可 以 很 好 地 达到 这 个 目的 ， 只 要 该 方法 始终 如 一 地 产生 误差 ， 也 就 是 说 ， 只 要 
大 小 估计 方法 赋予 最 佳 查询 计划 最 小 的 代价 ， 即 使 该 计划 的 实际 代价 与 所 估计 的 代价 不 同 。 


记号 复习 
回忆 一 下 15.1.3 节 中 我 们 用 来 表示 关系 大 小 的 惯用 记 法 : 
。B(R) 是 容纳 关系 RR 所 有 元 组 所 需 的 块 数 。 


。T(R) 是 关系 R 的 元 组 数 。 

*V(R,a) 是 关系 RR 的 属性 4 的 值 计数 ， 即 ， 关 系 R 的 属性 a 上 所 具有 的 不 同 值 的 数目 。 并 
E, VR, [ana a ATX RH Altaan, as 作 为 一 起 考虑 时 所 出 现 的 不 同 
值 的 数目 ， 即 ，6G(Tta1.ay…as(R)) 中 的 不 同 元 组 数 。 


16.4.2 投影 大 小 的 估计 

投影 不 同 于 其 他 操作 符 ， 因 为 结果 的 大 小 是 可 计算 的 。 由 于 投影 为 每 个 变 元 元 组 产生 
一 结果 元 组 ,输出 大 小 的 仅 有 变化 在 于 元 组 的 长 度 。 回 忆 一 下 ， 投 影 操作 符 是 作为 包 操作 
符 来 使 用 的 ， 不 消除 重复 元 组 ; 如 果 想 消除 投影 中 产生 的 重复 ， 我 们 必须 在 投影 之 后 加 一 
个 5 操作 符 。 

通常 ， 投 影 时 元 组 大 小 缩减 ， 因 为 某 些 成 分 被 消除 。 然 而 我 们 在 5.4.5 节 所 引入 的 一 般 形式 
投影 允许 产生 新 的 成 分 ， 它 们 是 已 有 属性 的 组 合 。 因 此 存在 这 样 的 情形 ，F 操作 符 实际 上 增加 
了 关系 的 大 小 。 

例 16.20 假设 R(a,b,c) 是 一 个 关系 ,其 中 a、b 是 4 字 节 长 的 整数 ，c 是 长 为 100 字 节 的 字符 串 。 
设 元 组 头 需要 12 字 节 。 这 样 R 的 每 个 元 组 占 120 字 节 。 设 块 为 1024 字 节 长 ， 其 中 块头 占 24 字 节 。 
因此 每 块 可 存放 8 个 元 组 。 假 设 7(R)=10 000; 即 R 中 有 10 000 个 元 组 。 则 BCR)=1250。 

考虑 S=7o,sc(R)， 妈 用 a 与 5 的 和 替代 a 和 4b。5S 的 元 组 占 116 字 节 ; 头 部 占 12 字 节 ， 和 占 4 字 节 ， 
字符 串 占 100 字 节 。 昌 然 5 的 元 组 比 R 的 元 组 略 小 ， 但 我 们 仍 可 在 一 个 块 中 存放 8 个 元 组 。 因 此 ， 
T(S)=10 000，B(S)=1250。 

现在 考虑 U = na (R)， 其 中 去 掉 了 字符 串 成 分 。U 的 元 组 仅 占 20 字 节 长 。T(U ) 仍 为 
10 000, BÆ, 我们 现在 可 在 一 个 块 中 放 和 50 个 元 组 ， 故 B (U) = 200。 从 而 该 投影 缩减 了 关 
系 约 6 成 还 多 。 口 


16.4.3 估计 选择 的 大 小 

当 我 们 执行 选择 时 ， 一 般 而 言 是 减少 元 组 的 数目 ， 尽 管 元 组 的 大 小 保持 原样 。 最 简单 的 选 
择 情 形 ， 即 一 个 属性 等 于 某 个 常量 ， 有 一 个 比较 容易 的 方法 估计 结果 的 大 小 ， 前 提 是 我 们 知道 
或 可 估计 该 属性 不 同 取 值 的 数目 。 令 S= ao--(R)， 其 中 4 是 R 的 属性 ，c 是 一 个 常量 。 则 我 们 推荐 
如 下 的 一 个 估计 : 
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TS) = T(R)/V(R, A) 

如 果 属 性 4 的 各 值 在 数据 库 中 均匀 出 现 ， 以 上 规则 必然 成 立 。 然 而 ， 正 如 在 “Zipfian 分 布 ” 
文字 框 中 讨论 的 那样 ， 以 上 公式 总 的 说 来 仍 是 最 佳 估计 ， 即 使 属性 4 的 诸 值 在 数据 库 中 不 均匀 
分 布 。 不 过 ， 我 们 要 求 4 的 所 有 值 在 说 明 4 的 值 的 各 查询 中 出 现 的 可 能 性 是 相等 的 。 

当选 择 中 涉及 非 等 值 比较 时 ， 大 小 估计 更 困难 ， 如 ，5=6sao(R)。 有 人 可 能 会 认为 平均 而 
言 有 一 半 元 组 满足 比较 条 件 而 另 一 半 不 满足 ， 因 此 T(R)/2 是 $ 大 小 的 估计 。 然 而 ， 直 觉 上 涉及 
非 等 值 比较 的 查询 倾向 于 产生 更 少量 的 可 能 的 元 组 。。 因 此 ， 我 们 提议 承认 这 种 倾向 的 规则 ， 
并 假设 常见 的 不 等 值 比较 将 返回 约 三 分 之 一 的 元 组 而 不 是 一 半 元 组 。 如 果 9=a_(R)， 则 我 们 对 
7(S) 的 估计 是 : 

* T(S) = T(R)/3 

“不 等 ”比较 的 情形 是 比较 少 的 。 但 是 ， 如 果 遇 到 像 S=a-=io(R) 这 样 的 选择 ， 我 们 建议 假设 
所 有 的 元 组 将 满足 这 个 条 件 ， 即 取 T (S) = 了 (R) 作 为 估计 。 另 外 ， 我 们 也 可 用 T (5) = T (RVR, 
a) -1)/V(R, a) 作为 估计 ， 它 比 前 一 估计 略 小 。 这 个 方案 承认 约 有 1/V(R,a) 个 R 的 元 组 不 满足 条 
件 ， 因 为 它们 的 a 值 确实 等 于 该 常量 。 

当选 择 条 件 C 是 多 个 等 值 与 不 等 值 比较 的 AND 时 ， 我 们 可 把 选择 ac (R) 作 为 多 个 简单 选择 的 
级 联 ， 其 中 的 每 一 个 选择 只 检查 其 中 的 一 个 条 件 。 注 意 ， 我 们 安排 这 些 选 择 的 次 序 是 没有 关系 
的 。 其 效果 是 结果 的 大 小 估计 是 原始 关系 的 大 小 乘 以 每 个 案件 的 选中 幸 因 子 。 该 因子 对 于 任何 
不 等 值 比较 是 /3， 对 于 头 是 1， 对 于 条 件 C 中 与 一 个 常量 相 比 较 的 任何 属性 4 取 1V (R，A4)。 


Zipfian 分 布 

当 我 们 假设 R 的 VR, a) 个 元 组 之 一 满足 像 a = 10 这 样 的 条 件 时 ， 似乎 做 了 默认 的 假设 : 
属性 a 的 所 有 值 出 现在 R 的 一 个 给 定 元 组 中 的 可 能 性 相同 。 我 们 同 时 假定 10 是 这 些 值 之 一 ， 
这 是 个 合理 的 假设 ， 因 为 大 部 分 时 间 人 们 在 数据 库 中 查找 确实 存在 的 信息 。 然而 ， 等 值 分 
布 这 个 假设 很 少 成 立 ， 即 使 近似 服从 也 很 少 。 

许多 属性 值 的 出 现 遵 从 Zipfian 分 布 ， 其 中 第 i 个 最 公共 值 的 出 现 频 率 正比 于 1/Vi 。 创 
如 ， 如 果 最 公共 值 出 现 1000 次 ， 则 第 二 最 公共 值 将 预期 出 现 1000/V2 次 ， 即 707 次 ， 而 第 
三 最 公共 值 将 出 现 约 1000/4/3 次 ， 即 577 次 。 原 先 该 分 布 用 于 描述 单词 在 英语 身子 中 出 现 
的 相对 频率 ， 后 来 发 现 该 分 布 又 出 现在 许多 种 数据 中 。 倒 如 ， 在 美国 ， 州 人 口 遵从 一 个 近 
似 的 Zipfian 分 布 , 如 人 口 数位 居 第 二 的 纽约 州 拥有 人 口 最 多 的 加 利 弗 尼 亚 州 的 70 允 的 人 口 。 
因此 ， 如 果 state 是 描述 美国 人 口 的 关系 的 属性 ， 比 如 说 杂志 订阅 者 清单 ， 我 们 预期 
state 的 诸 值 按 Zipfian 分 布 而 不 是 均匀 分 布 。 

只 要 选择 条 件 的 常量 随机 选 定 ， 所 涉及 属性 诸 值 是 否 是 均匀 分 布 、Zipfian 分 布 或 其 他 
分 布 是 无 关 紧 要 的 ; 匹配 集合 的 平均 大 小 仍 将 是 T(R)/V(R, a)。 然 而 ， 如 果 常 量 的 选 定 也 
遵从 Zipfian 分 布 ， 则 我 们 期 望 所 选择 集合 的 平均 大 小 会 比 TCR)/VCR, 四 稍 大 。 
















例 16.21 令 R(a,b,c) 是 一 个 关系 ，S=6510 aw sao(R)。 同 时 ， 令 TCR)=10 000, V(R, a)=50。 
则 我 们 的 最 佳 TC5) 估 计 是 T(R)/50 x 3)， 即 67。 即 R 的 元 组 的 1/50 将 满足 a=10 的 过 滤 ， 其 中 1/3 将 


昌 ” 例 如 ， 如 果 你 拥有 关于 教 职 工 工资 的 数据 ， 你 是 更 可 能 查询 那些 挣 钱 少 于 200 000 美 元 的 教 职 工 还 是 那些 挣 
钱 多 于 200 000 美 元 的 教 职 工 ? 
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满足 b<20 过 滤 。 

一 个 有 意思 的 特别 情形 是 当 条 件 矛 盾 时 ， 我 们 的 分 析 失 效 。 例 如 ， 考 虑 S= az-io ann wzo(R)。 
根据 规则 ，7T(5)=TCR)/3V(R,a)， 即 67 个 元 组 。 然而， 很 清楚 ， 没 有 元 组 能 同时 满足 a=10 和 a>20， 
因此 正确 答案 是 TS)=0。 当 重 写 逻 辑 查询 计划 时 ， 查 询 优 化 器 可 查找 许多 特殊 情形 规则 的 实例 。 
在 上 面 的 例子 中 ， 优 化 器 可 应 用 那些 选择 条 件 逻 辑 上 等 值 于 FALSE 的 规则 ， 并 且 用 空 集 代 蔡 5 
表达 式 。 口 


当选 择 涉及 OR 条 件 时 ， 比 如 说 $= oc, on c,(R)， 则 结果 的 大 小 更 难 确 定 。 一 个 简单 的 假设 
是 没有 同时 满足 两 个 条 件 的 元 组 ， 因 此 结果 的 大 小 是 分 别 满足 各 条 件 的 元 组 数 之 和 。 该 度量 一 
般 是 过 高 估计 , 并 且 事 实 上 有 时 会 引出 荒 雇 的 结论 : 5 中 的 元 组 数 比 原始 关系 R 中 的 还 多 。 因此 ， 
男 一 个 简单 的 方法 是 取 关系 R 的 大 小 与 分 别 满足 条 件 Cl 和 C2 的 元 组 数 之 和 这 两 者 中 的 较 小 者 。 
一 个 稍 复杂 但 可 能 更 准确 的 对 下 式 的 大 小 估计 是 假设 C1 与 GC 相互 独立 : 


S=Oc | or c(R) 
并 且 如 果 R 有 n 个 元 组 ， 其 中 有 mi 个 满足 C;， 有 ms 个 满足 C;,， 则 我 们 估计 S$ 中 元 组 的 数目 为 ; 
n (1-(1-m/n)(l -my/n)) 


解释 如 下 ，1 - mi/n 是 不 满足 C1 的 那 部 分 元 组 ，1 - m2/n 是 不 满足 C, 的 那 部 分 元 组 。 这 两 数 之 积 
是 不 在 5 中 的 那 部 分 R 的 元 组 ，1 减 去 这 个 积 就 是 属于 5 的 那 部 分 元 组 。 
例 16.22 假设 R(a,6) 有 T(R)=10 000 个 元 组 ， 且 $=Gsi0 on so(R)。 令 VLR，a)=50， 则 满足 
a=10 的 元 组 数 我 们 估计 为 200， 即 T(R)/V(R,a)。 满 足 b<20 的 元 组 数 我 们 估计 为 TCR)/3， 即 3333。 
对 5 大 小 的 最 简单 的 估计 是 取 该 二 数 之 和 ， 即 3533。 基 于 条 件 a=10 与 5<20 的 独立 性 的 更 为 
复杂 的 估计 是 : 
10000(1 - (1 - 200/10000)(1 - 3333/10000)) 
即 3466。 在 这 两 个 估计 之 间 没 有 多 少 差别 ， 从 而 对 两 种 估计 的 选择 不 可 能 改变 我 们 对 最 佳 物理 
查询 计划 的 估计 。 口 


可 能 出 现在 选择 条 件 中 的 最 后 一 个 操作 符 是 NOT。 如 果 关 系 R 有 n 个 元 组 ， 则 满足 条 件 NOT 
C 的 T(R) 的 元 组 的 估计 数 是 n 减 去 满足 C 的 元 组 估计 数 。 
16.4.4 连接 大 小 的 估计 
我 们 在 此 只 考虑 自然 连接 。 其 他 连接 可 按 以 下 纲要 进行 处 理 : 
L 等 值 连接 结果 中 的 元 组 数 在 考虑 到 变量 名 的 变化 后 可 按 自 然 连接 那样 计算 。 例 16.24 将 
说 明 这 一 点 。 
2. 其 他 6 连接 可 看 成 积 之 后 跟 一 个 选择 来 作 估计 ， 并 注意 到 以 下 几 点 : 
(a) 积 中 的 元 组 数 是 所 涉及 关系 的 元 组 数 之 积 。 
(b) 等 值 比 较 可 用 自然 连接 所 用 的 技术 来 估计 。 
(c) 两 属性 的 非 等 值 比 较 ， 如 R.a<5.b， 可 按 我 们 在 16.4.3 节 中 讨论 的 非 等 值 比较 形式 
R.a<10 那 样 处 理 。 即 我 们 假定 这 个 条 件 有 选中 率 因子 1/3( 如 果 你 相信 那些 询问 是 在 查 
询 很 少 出 现 的 条 件 ) 或 1/2( 如 果 你 不 作 那 种 假设 )。 
在 开始 我 们 的 研究 之 前 假定 两 个 关系 的 自然 连接 只 涉及 两 个 属性 的 等 值 比较 。 即 ， 我 们 研 
究 连接 R(X， 了 )m S(Y， 妃 ， 但 初步 假定 7 是 单个 属性 ， 当 然 X、2 可 代表 任何 属性 集 。 
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问题 在 于 我 们 不 知道 R 中 的 Y 值 与 $ 中 的 了 值 是 如 何 联系 的 。 例 如 

1. 两 个 关系 可 能 有 不 相交 的 了 值 集合 , 在 这 种 情况 下 ,连接 是 一 个 空 集 且 TCRe S)=0. 

2. 7 可 能 是 $ 的 关键 字 并 且 是 R 的 外 关键 字 ， 因 此 R 的 每 个 元 组 正好 与 $ 中 的 一 个 元 组 连接 ， 
AT(R >S)=T(R)o 

3. 几乎 所有 5 与 R 的 元 组 都 具有 相同 的 7 值 ， 在 这 种 情况 下 ，T(Rm 5) 约 为 T(R)T(S)。 

针对 最 通用 的 情形 ， 我 们 作 两 个 简化 的 假设 : 

， 值 集 的 包含 。 如 果 Y 是 出 现在 多 个 关系 中 的 一 个 属性 ， 则 每 个 关系 从 值 y1 y ys 

个 固定 列表 的 前 头 选 择 其 值 ， 并 且 所 有 值 以 其 作为 前 级 。 因 此 ， 如 果 有 与 8 是 具有 属 狂 了 

的 两 个 关系 ， 且 VCR，D 拟 VS， 让，、 则 R 的 每 个 7? 值 将 是 5 的 一 个 了 7 值 。 

* 值 集 的 保持 。 如 果 我 们 把 关系 R 与 另 一 个 关系 连接 ， 则 不 是 连接 属性 的 属性 4( 即 两 个 关系 
中 不 同时 拥有 ) 不 会 在 其 可 能 的 值 集中 丢失 值 。 更 准确 地 说 ， 如 果 4 是 R 的 一 个 属性 但 不 是 
5 的 属性 ， 则 VR mm 5，A)=VCR，A)。 注 意 ，R 与 5 的 连接 次 序 并 不 重要 ， 因 此 我 们 还 可 以 
WSR, A)=V(R, A)o 

BEO, HRMS, REASRIER, (4YRSPHKES AER AREER, M 
是 满足 的 。 在 许多 其 他 情形 下 也 近似 为 真 ， 因 为 直觉 上 我 们 预期 ， 如 果 S 有 许多 7 值 ， 则 一 个 出 
现在 R 中 的 给 定 7 值 有 较 大 的 可 能 出 现在 S 中 。 

假设 (2)， 值 集 的 保持 ,也 可 能 被 违反 , 但 当 Rm 5 的 连接 属性 是 $ 的 关键 字 旦 是 R 的 外 关键 
字 时 它 为 真 。 事 实 上 ，(2) 被 违反 只 有 当 R 中 存在 “悬挂 元 组 ”时 ， 即 R 中 不 与 $ 中 的 元 组 相连 接 
的 元 组 ; FABER PATE “BETA”, BURR ator. 

在 这 些 假设 下 ,我 们 可 以 对 R(X,7) SYD KME Fito SVRY<VSY). MRH 
每 个 元 组 博 1V(5, 了 7) 的 机 会 与 给 定 的 一 个 $ 元 组 相连 接 。 因 为 存在 $ 中 的 T(S) 个 元 组 ， 与 1 连接 的 
期 望 元 组 数 是 T(SY/V(5,Y)。 由 于 有 T(R) 个 R 的 元 组 ，Rwa 5 的 估计 大 小 是 TCR)TC5)/VCS,Y)。 如 果 
VRY) VS, 了 )， 则 一 个 对 称 参数 给 出 的 估计 是 TCRm% 5)=T(R)T(S)/V(R, 站 。 一 般 而 言 ， 我 们 用 
V(R, 了 与 VS, 了) 中 的 较 大 者 去 除 。 即 : 

* T(R S)=T(R)T(S)/max(V(R,Y), V(S,Y)) 


16.23 让 我 们 来 考虑 如 下 三 个 关系 及 其 重要 统计 值 : 


R(a, b) S(b,c) U(e,d) 
T(R) = 1000 “T(S) = 2000 ~T(U) = 5000 
V(R#,b)=20 V(S,6) = 50 

V(S,c)=100 V(U,c) = 500 

假定 我 们 要 计算 自然 连接 Rm Sea U。 方 法 之 一 是 把 R 与 5 分 为 一 组 ， 即 (Rm 5)m U。 我 们 
对 TCRba 5) 的 估计 是 TCR)T(S)/max(V(R,b),VCS,b))， 其 值 为 1000 x 2000/50， 即 40 000。 

然后 我 们 把 Rmx SIUE., 我 们 对 结果 大 小 的 估计 是 T(R mAT(UNmax(V(R IS, c),V(U,c), 
根据 值 集 保持 的 假设 ，VRea S，o) 与 WS.c) 相 同 ， 即 100; 也 就 是 说 ， 当 我 们 做 连接 时 属性 c 的 
值 不 会 消失 。 在 这 种 情况 下 ， 我 们 对 Rm Sos U 中 的 元 组 数 作 估计 为 40 000 x 5000/max (100 
500), 即 400 000。 

亦 可 以 用 5 与 0 连接 来 开始 。 如 果 这 样 ， 我 们 得 到 估计 T(S mw U)=T(S)T(U)/max(V(S, 
c),V(U,c))=2000 x 5000/500=20 000。 根 据 值 集 保持 的 假设 ，V(S pa U,b)=V(S,b)=50, Fee 
大 小 的 估计 是 : 

T(R)T(Ss U)/max(V(R,b),V(S ba U,b)) 
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即 为 1000 x 20 000/50, =%400 000. 口 


在 例 16.23 中 ， 不 论 我 们 由 Rm S$ 开始 连接 还 是 由 5m UFE, EHER a Sm U 的 大 小 估 
计 总 是 相同 的 ， 这 不 是 巧合 。 回 忆 一 下 ，16.4.1 节 中 的 需求 之 一 就 是 表达 式 结果 估计 应 当 不 依 
赖 于 计算 的 次 序 。 可 以 证 明 我 们 所 作 的 两 个 假设 一 一 值 集 的 包含 与 保持 一 一 保证 任何 自然 连接 
的 估计 是 相同 的 ， 不 管 连接 的 次 序 如 何 。 

16.45 多 连接 属性 的 自然 连接 

现在 我 们 来 看 看 当 Y 表 示 连 接 R(X,7)x4 SCZ 刀 中 的 多 个 属性 时 会 发 生 什么 。 举 个 具体 的 例子 ， 
假设 我 们 要 作 连 接 R(x,yi,yz) m SCy1,y2,z)。 考 虑 R 中 的 一 个 元 组 r。r 与 一 个 给 定 的 $ 的 元 组 s 连 接 的 
概率 可 按 如 下 方式 计算 。 

首先 ,7 与 s 在 属性 y, 上 相同 的 概率 是 多 少 ?假设 V(R,y1) 宇 VS,y1)。 则 :的 y 值 必然 是 出 现在 R 
中 的 诸 y 值 之 一 ， 这 是 根据 值 集 包含 假设 而 知 的 。 因 此 ，x 具 有 与 s 相 同 y 值 的 概率 是 1/V(R,y1)。 
类 似 地 ， 如 果 V(R,yi)<V(S，y1)， 则 7 中 的 y 值 将 出 现在 9 中 ，r 与 有 相同 y 值 的 概率 是 11VCS,y1)。 
总 的 说 来 ， 我 们 得 知 在 y' 值 上 相同 的 概率 是 1/max (V(R,y1),V(S.y1)) 0 

关于 + 与 ;在 yu 上 取 相 同 值 的 概率 的 类 似 的 论据 告诉 我 们 ， 这 个 概率 是 1/max(V(R,y2),V(S， 
2))。 由 于 y1 与 ys 的 值 是 独立 的 ， 元 组 在 y1 与 y2 上 相同 的 概率 是 这 些 因子 的 积 。 因 此 ， 源 自 R 与 $ 
的 TCR)T(5S) 对 元 组 中 ， 在 y1 与 y: 上 匹配 的 期 望 的 对 数 是 : 

T(R)T(S) 
max(V (R, y1), V(S,y1)) max(V(R, y2), V (S, y2)) 


一 般 而 言 ， 当 两 个 关系 间 有 任意 数目 的 公共 属性 时 ， 以 下 规则 可 用 于 估计 自然 连接 的 
大 小 。 

"Rm 5 的 大 小 估计 是 通过 T(R) 乘 以 T(S)， 对 于 每 一 个 R 与 5 的 公共 属性 y， 除 以 V(R,y) 与 

V(S5,y) 中 的 较 大 者 来 计算 。 


例 16.24 下面 这 个 例子 使 用 上 面 的 规则 。 它 同时 说 明了 我 们 一 直 在 做 的 对 自然 连接 的 分 
析 适 用 于 任何 等 值 连接 。 考 虑 连接 : 


R(a,b,¢) R=s.ad inp he-=se Sld,e, f) 








假设 我 们 有 以 下 的 大 小 参数 : 
R(a, b,c) S(d,e, f) 
T(R) = 1000 T(S)= 2000 
V(R,b)=20 V(S,d) = 50 
V(R,c)=100 V(S,e) = 50 







仅 考 虑 元 组 数 还 不 够 
虽然 对 关系 大 小 的 分 析 集 中 在 结果 的 元 组 数 上 ， 我 们 还 得 考虑 每 个 元 组 的 大 小 BI 
如 ， 关 系 连 接 后 产生 的 元 组 比 参 与 连接 的 任 一 关系 的 元 组 都 长 。 举 例 来 说 ， 考 虑 两 关系 
的 连接 RpqS， 每 个 关系 有 1000 个 元 组 ， 所 产生 的 结果 可 能 也 有 1000 个 元 组 。 但 是 ， 结 果 
占用 的 块 数 比 R 或 8 任 一 关系 都 多 。 
例 16.24 是 一 个 恰当 而 有 趣 的 例子 。 尽 管 我 们 可 使 用 自然 连接 技术 来 估计 9 连接 的 元 
组 数 ， 正 如 那个 例子 那样 ，9 连接 中 的 元 组 比 相应 自然 连接 的 元 组 具有 更 多 的 属性 。 具 
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体 地 说 ，6 连 接 R(a, b,c) sd PD Reese S(d,e, 有 产生 六 个 属性 的 元 组 ， 依 次 是 a 到 J， 


而 自然 连接 R(a,b,c)}ma S(b,c,d) 产 生 相同 数目 的 元 组 ,但 每 个 元 组 只 有 四 个 属性 。 


如 果 把 R.b 与 5.4 看 成 相同 的 属性 ， 同 时 也 把 R.c 与 5.e 看 成 相同 的 属性 ， 则 我 们 可 把 这 个 连 
接 看 成 自然 连接 。 从 而 上 面 给 出 的 规则 告诉 我 们 Rw 5 的 大 小 估计 是 积 1000 x 2000 除 以 20 与 50 
中 较 大 的 一 个 ， 再 除 以 100 与 50 中 较 大 的 数 。 因 此 ， 连 接 的 大 小 估计 是 1000 x 2000/(50 x 100) = 
400 个 元 组 。 口 

例 16.25 ”重新 考虑 例 16.23， 但 是 考虑 第 三 种 可 能 的 连接 次 序 ， 其 中 我 们 首先 做 R(a, bya 
ULc,d)。 这 个 连接 实际 上 是 一 个 积 ， 结 果 中 的 元 组 数 是 TCR)T(UD)=1000 x 5000=5 000 000。 注 意 ， 
积 中 不 同 b 的 数目 是 V(R,b)=20， 不 同 c 的 数目 是 VCU, c)=500。 

当 我 们 将 这 个 积 与 8(8,c) 相 连接 时 ， 乘 上 元 组 数 并 除 以 max(Y(R,D),y(S.5)) 与 
max(V(U,c),V(S.c))o 3X“ 342000 x 5 000 000/(50 x 500)=400 000。 注 意 ， 第 三 种 连接 方法 得 
到 的 结果 大 小 估计 与 我 们 在 例 16.23 中 得 到 的 相同 。 口 
16.46 多 个 关系 的 连接 

最 后 ,我 们 来 考虑 自然 连接 的 一 般 情形 : 

S=R, > Ryo pa R,, 

假设 属性 4 出 现在 k 个 R 中 ， 在 这 x 个 关系 中 值 的 集合 的 个 数 ( 即 VR;, 4) 的 各 个 值 ， 其 中 i = 1, 
2,…, D， 是 vi 所 Ww<… 忆 vt, 次序 从 最 小 到 最 大 。 假 设 我 们 从 每 个 关系 中 选 一 个 元 组 。 所 选 元 
组 在 属性 4 上 相同 的 概率 是 多 少 ? 

为 回答 这 个 问题 ， 考 虑 从 具有 最 小 数目 的 4 值 w 的 关系 中 选取 的 元 组 癌 。 根 据 值 集 包含 的 候 
设 , 这 v1 个 值 中 的 每 一 个 值 是 在 其 他 具有 属性 4 的 关系 中 所 发 现 的 4 值 中 。 考 虑 属性 4 上 有 vi 个 
值 的 关系 。 它 所 选 的 元 组 # 在 属性 4 上 与 , 相 同 的 概率 是 1/v,。 由 于 这 个 结论 对 于 所 有 i=2,3,….k 
均 为 真 ， 因 此 所 有 k 个 元 组 在 4 上 相同 的 概率 是 积 1/vzy3…v。 这 个 分 析 为 我 们 估计 任何 连接 的 大 
小 给 出 了 一 条 规则 。 

"从 每 个 关系 中 元 组 数 的 积 出 发 ， 然 后 ， 对 于 至 少 出 现 两 次 的 属性 4， 除 以 除了 WR,4) 中 最 

小 值 之 外 的 所 有 值 。 

类 似 地 ， 我 们 可 以 对 连接 后 属性 4 的 值 的 数目 作 估 计 。 根 据 值 集 保 持 假 设 ， 该 值 就 是 这 些 

V(R,4) 中 最 小 的 一 个 。 


例 16.26 ”考虑 连接 R(a,b,c)m S(b,c,d) > U(b,e)， 假 定 重 要 的 统计 值 如 图 16-23 所 示 。 为 估 
计 这 个 连接 的 大 小 ， 我 们 由 各 个 关系 大 小 的 乘积 开始 ， 即 1000 x 2000 x 5000, 接着 ， 查 找 那 








， 些 出 现 多 于 两 次 的 属性 。 它 们 是 b 出 现 三 次 ，c 出 现 两 次 。 将 积 除 以 V(R,b)、V(S，b) 和 WVU， b) 


中 较 大 的 两 个 值 ， 它 们 是 50 与 200。 最 后 ， 再 除 以 VR,c) 与 V(S,c) 中 较 大 的 一 个 ， 即 200。 估 计 


S(b,c,d) U(b,e) 
T(S) = 2000 T(U)= 5000 





V(S,b)=50  V(U,b) = 200, 
V(S,c) = 100 
V(S,d) = 400 


V(U,e) = 500 
图 16-23 例 16.26 的 参数 
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1000 x 2000 x 5000/(50 x 200 x 200) = 5000 


我 们 也 可 估计 连接 中 每 个 属性 的 值 的 个 数 。 每 个 估计 值 就 是 该 属性 所 出 现 的 所 有 关系 中 的 
最 小 值 计数 。 对 于 a、b5、c、d 和 e， 它 们 各 自 的 估计 值 是 : 100、20、100、400 和 500。 口 






为 何 连接 大 小 估计 与 次 序 无 关 ? 

这 个 结论 的 形式 化 证 明 通 过 对 参与 连接 的 关系 的 个 数 进行 归纳 来 完成 。 我 们 不 准备 
给 出 这 个 证 明 ， 但 在 这 个 文字 框 中 给 出 直观 描述 。 假 设 我 们 要 对 一 些 关系 进行 连接 ， 最 
后 一 步 是 









(Ri >a- -- oa Ry) bd (S1 Da --- DA Sm) 


我 们 可 以 假设 不 管 对 R 关 系 如 何 连 接 ， 其 连接 的 大 小 估计 是 各 关系 R 的 大 小 除 以 除了 
在 R 中 出 现 多 于 一 次 的 每 个 属性 的 最 小 值 计数 之 外 的 所 有 值 。 对 每 个 属性 估计 的 值 计数 
是 R 关 系 中 最 小 的 值 计数 。 对 各 5 关系 可 作 类 似 的 陈述 。 

当 我 们 把 用 于 估计 两 个 关系 连接 大 小 的 规则 ( 见 16.4.4 节 ) 应 用 到 由 R 连 接 以 及 5 连 
接 所 形成 的 两 个 关系 上 ， 其 估计 是 两 个 估计 的 乘积 除 以 每 个 出 现在 R 与 5 关系 中 属性 值 计 
数 中 的 较 大 者 。 因 此 ， 这 个 估计 必然 有 一 个 因子 ， 它 是 Ri,，…, Ry Si, …,Sm 中 每 一 关系 的 
大 小 。 此 外 ， 对 于 每 个 不 是 该 估计 属性 的 最 小 值 计 数 的 属性 值 计数 ， 该 估计 将 拥有 一 个 
除数 。 或 者 这 个 除数 已 经 在 R 或 5 中 出 现 ， 或 者 它 是 在 最 后 一 步 引入 的 ， 因 为 其 属性 A 同 
时 出 现在 R 与 中 ， 并 且 它 是 V(Ri,A) 的 最 小 值 与 V(S,A) 的 最 小 值 中 较 大 的 一 个 值 计数 。 


基于 我 们 所 作 的 两 个 假设 一 一 值 集 的 包含 与 保持 一 -我 们 得 到 上 面 给 出 的 估计 规则 的 一 个 
令 人 惊讶 且 方 便 的 特性 : 

“不 管 我 们 如 何 对 几 个 关系 的 自然 连接 中 各 项 进行 组 合 与 排序 ， 分 别 对 每 个 连接 应 用 估计 

规则 所 得 到 的 结果 大 小 是 相同 的 。 此 外 ， 这 个 估计 与 我 们 对 几 个 关系 作为 一 个 整体 来 连 

接 并 应 用 估计 规则 所 得 到 的 结果 大 小 估计 是 相同 的 。 

例 16.23 与 例 16.25 是 对 3 个 关系 的 3 种 组 合 方式 应 用 规则 的 一 个 说 明 ， 其 中 包括 了 连接 之 一 
是 积 的 组 合 情 形 。 
16.4.7 其 他 操作 的 大 小 估计 

我 们 已 经 知道 两 个 操作 ， 它 们 对 元 组 数 估计 有 一 个 准确 的 公式 : 

1. 投影 不 改变 关系 中 的 元 组 数 。 

2. 积 所 产生 结果 的 元 组 数 等 于 各 变 元 关系 的 元 组 数 的 乘积 。 

其 他 两 个 操作 -一 选择 与 连接 ~ 一 我 们 也 得 到 了 合理 的 估计 技术 。 然 而 ， 对 于 其 余 的 操作 ， 
结果 大 小 却 不 易 确 定 。 我 们 来 看 看 其 他 关系 代数 操作 符 ， 并 给 出 一 些 如 何 进行 估计 的 建议 。 

并 

如 果 采 用 包 的 并 ， 则 其 大 小 正好 是 变 元 大 小 之 和 。 集 合 的 并 可 以 大 至 两 变 元 大 小 之 和 ， 也 
可 小 至 两 变 元 之 较 大 者 。 我 们 建议 取 其 中 间 值 ， 例 如 取 和 与 较 大 者 的 平均 值 (等 于 较 大 者 加 上 
一 半 较 小 值 )。 

交 

结果 可 以 少 至 0 个 元 组 或 多 至 两 变 元 之 较 小 者 ， 无 论 采用 集合 的 交还 是 包 的 交 。 方 法 之 一 
是 取 两 极端 的 平均 值 ， 即 较 小 值 的 一 半 。 

男 一 种 方法 是 注意 到 交 是 自然 连接 的 极端 情况 ， 采 用 16.4.4 节 的 公式 。 当 采用 集合 交 时 ， 
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这 个 公式 保证 所 产生 的 结果 不 大 于 两 关系 的 较 小 者 。 然 而 ， 在 包 交 的 情形 下 ， 可 能 存在 异常 情 
况 ， 估 计 值 大 于 两 变 元 的 较 大 者 。 例 如 ， 考 虚 R(a,b) 阁 aS(a,b)， 其 中 R 由 两 份 (0,1) 元 组 的 拷贝 组 
成 ，5 由 同一 元 组 的 3 份 拷贝 组 成 。 则 : 
V(R, a) = V(s,a) = V(R,b) = V(S,b}= 1 

T(R) = 2, T(S) = 3。 估 计 是 2 x 3/(max(1, 1) x max(1, 1))=6， 这 是 根据 连接 规则 得 到 的 ,但 
显然 结果 中 不 会 多 于 min(T(R),T(S))=2 个 元 组 。 

= 

当 我 们 计算 R- SH, ARPA AA TR)BTR) - TS) 个 元 组 。 我 们 建议 估计 值 取 其 平均 值 .; 
T(R) - T(S)/2。 

消除 重复 

着 R(a1,a2,…,as) 是 一 关系 ， 则 VR,[a1,a2…,an]) 的 大 小 为 KR)。 然 而 ， 通 常 我 们 得 不 到 这 个 
统计 值 ， 因 此 必须 取 近 似 值 。 在 极端 情形 下 ，&R) 的 大 小 可 与 R 的 大 小 相同 (R 无 重复 元 组 ) 或 为 
1(R 中 全 部 元 组 相同 )”。6(R) 中 元 组 数 的 另 一 个 上 限 是 可 能 存在 的 不 同 元 组 的 最 大 数 ;V(R,ai) 
之 积 ，i=1,2,…,n。 该 数 可 能 比 T(R) 的 其 他 估计 更 小 。 有 多 条 规则 可 用 于 估计 7T(&R))。 一 个 合理 
的 估计 是 取 TUR)/2 与 所 有 YCR,a) 之 积 中 较 小 的 一 个 。 

分 组 与 聚集 

假设 有 一 个 表达 式 j(R)， 要 估计 其 结果 的 大 小 。 若 统计 值 VR,[81,82,…,gt) 已 知 ， 其 中 gi; 是 
Z 中 的 分 组 属性 ， 则 它 就 是 我 们 的 答案 。 然 而 ， 这 个 统计 值 很 可 能 得 不 到 ， 因 此 我 们 需要 寻找 
另 一 种 方法 估计 %(R) 的 大 小 。%(R) 中 的 元 组 数 与 分 组 数 相同 。 结 果 中 的 数目 可 能 只 有 一 个 分 组 ， 
也 可 能 有 R 中 的 元 组 数 那么 多 的 分 组 。 与 65 一样， 我 们 也 可 据 V(R,A) 之 积 取 分 组 数 的 上 界 ， 不 过 
这 里 的 属性 4 只 取 L 中 的 分 组 属性 。 我 们 仍然 建议 该 估计 值 取 T(R)/2 与 这 个 积 的 较 小 者 。 
16.4.8 习题 | 

习题 16.4.1 下 面 是 4 个 关系 W、 义 、Y 和 2Z 的 关键 统计 值 : 

W (a,b) X(b,c) Y (c,d) Z(d,e) 
T(W)=100 T(X)=20 T(Y)=300 T(Z)=400 


V(W,a)=20 V(X,b)=50 Vo=50 V(Z,d)=40 
V(W,b)=60 V(X,c)=100 V(Y,d)=50 V(Z,e) = 100 


估计 下 列表 达 式 结果 关系 的 大 小 : 
* a Wo X mF oZ 
* b) ga=10(W) 


c) Oe=20(¥) 
d) oe=20(¥) oa Z 





一 、 


e) W xY. 
£) ga>10(2) 

* g) oo=1 anD 6=2(W) 
h) ze=l AmD o>2(W) 


: r bg r 
DX yccreY 


日、 严格 地 说 ， 若 R 为 空 ， 则 8 或 &R) 中 没有 元 组 ， 因 此 下 和 界 为 0。 但 是 我 们 很 少 对 这 种 特殊 情形 感 兴趣 。 
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* 习题 16.4.2 下 面 是 4 个 关系 E、F、G 和 的 统计 值 : 

El(a, b,c) F(a,b,d) G(a,c, d) H(b,c, d) 

T(E) = 1000 T(F) =2000 T(G)= 3000  T(H) = 4000 
V(E,a)=1000 V(F,a)=50 V(G,a)=50 V(H,b)=40 
V(E,b)=50 V(F,6)=100 V(G,c)=300 V(H,c)=100 
V(E,c}=20 V(F,d)=200 V(G,d)=500 V(H,d) = 400 

利用 本 节 中 的 估计 技术 ， 估 计 这 些 元 组 的 连接 会 产生 多 少 结果 元 组 ? 

习题 16.4.3 如 何 估计 一 个 半 连 接 的 大 小 ? 

! 习题 16.4.4 ”假设 我 们 计算 R(a,bp)m S(a,c)， 其 中 R 与 5 均 有 1000 个 元 组 。 每 个 关系 的 a 属性 
均 有 100 个 不 同 的 值 ， 并 且 它 们 是 相同 的 100 个 值 。 如 果 值 的 分 布 是 均匀 的 ， 如 每 个 a 值 正 
好 在 每 个 关系 的 10 个 元 组 中 出 现 ， 则 连接 结果 中 有 10 000 个 元 组 。 进 而 假设 100 个 a 值 在 每 
个 关系 中 有 相同 的 Zipfian 分 布 。 更 准确 地 说 ， 今 这 些 值 是 al,az….aio。 则 R 与 S 有 w 值 为 的 
元 组 数 正比 于 1/Vi 。 在 这 种 情形 下 ， 连 接 有 多 少 个 元 组 ? 你 应 当 忽略 给 定 a 值 的 元 组 数 不 
是 一 个 整数 的 情况 。 


16.5 基于 代价 的 计划 选择 介绍 


无 论 是 选取 一 个 逻辑 查询 计划 还 是 从 一 个 逻辑 计划 构造 一 个 物理 计划 ， 查 询 优 化 器 都 需要 
估计 特 定 表达 式 的 代价 。 在 此 我 们 对 有 关 基于 代价 的 计划 选择 问题 加 以 研究 ， 并 在 16.6 节 中 我 
们 详细 探讨 基于 代价 的 计划 选择 中 最 重要 也 是 最 为 困难 的 问题 : 多 个 关系 的 连接 次 序 选 择 。 

与 以 前 一 样 ， 我 们 假设 计算 表达 式 的 代价 可 用 所 执行 的 磁盘 IO 数 来 加 以 近似 。 而 磁盘 IO 
又 受 以 下 因素 影响 : 

1. 所 选取 用 于 实现 查询 的 特定 逻辑 操作 符 ， 这 是 在 我 们 选择 逻辑 查询 计划 时 所 选 定 的 。 

2. 中 间 关 系 的 大 小 ， 其 估计 我 们 已 在 16.4 节 中 讨论 过 。 

3. 用 于 实现 逻辑 操作 符 的 物理 操作 符 ， 例 如 ， 对 一 趟 或 两 趟 连接 的 选择 ， 对 给 定 关系 是 否 
加 以 排序 的 选择 ; 这 个 问题 在 16.7 节 中 讨论 。 

4. 相似 操作 的 排序 ， 尤 其 是 在 16.6 节 中 讨论 的 连接 。 

5. 由 一 个 物理 操作 符 向 下 一 个 物理 操作 符 传递 的 参数 ， 这 个 问题 也 在 16.7 节 中 讨论 。 

为 进行 有 效 的 基于 代价 的 计划 选择 需要 解决 许多 问题 。 在 本 节 中 ， 我 们 首先 考虑 如 何 从 数 
据 库 中 有 效 地 获得 大 小 参数 ， 在 16.4 节 中 它们 对 估计 关系 大 小 是 很 关键 的 。 然后 我 们 重新 回顾 
为 找到 所 希望 的 逻辑 查询 计划 而 引入 的 代数 定律 。 基 于 代价 的 分 析 证 实 了 我 们 使 用 许多 通用 的 
启发 式 转换 逻辑 查询 计划 的 合理 性 ， 诸 如 在 树 中 下 推选 择 等 。 最 后 ， 我 们 考虑 可 由 所 选 逻 辑 计 
划 导 出 的 物理 查询 计划 的 各 种 方法 。 特 别 重 要 的 是 为 减少 所 需 评价 的 计划 数 的 方法 ， 而 同时 又 
保证 很 有 可 能 考虑 到 最 小 代价 的 计划 。 

16.5.1 大 小 参数 估计 值 的 获取 

16.4 节 的 公式 是 以 知道 某 些 重要 参数 为 基础 的 ,特别 是 TCR)、 关 系 R 中 的 元 组 数 以 及 VR,a)， 
即 关系 R 中 属性 a 列 的 不 同 值 的 数目 。 现 代 DBMS 一 般 允许 用 户 或 管理 员 显 式 地 要 求 做 统计 信息 
的 收集 。 这 些 统计 值 用 到 以 后 的 查询 优化 中 去 估计 操作 的 代价 。 由 此 后 的 数据 库 修改 导致 的 统 
计 值 的 变化 仅 在 下 一 个 统计 量 收集 命令 发 出 时 才 被 更 新 。 

通过 对 整个 关系 R 的 扫描 ， 直 接 可 以 得 到 元 组 数 TUR) 的 计数 ， 并 且 找 出 每 个 属性 4 的 不 同 值 
数目 WR, O。R 所 占用 的 块 数 BCR) 可 通过 实际 所 用 的 块 数 计数 ( 若 R 是 聚集 存放 ) 或 通过 7T(R) 除 以 
一 个 元 组 的 长 度 (或 除 以 一 个 元 组 的 平均 长 度 ， 若 R 的 元 组 按 可 变 长 格式 存放 ) 得 到 。 注 意 ， 这 
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两 个 BCR) 估 计 可 能 不 同 ， 但 对 于 代价 比较 通常 是 “足够 接近 ”的 ， 只 要 我 们 一 致 地 选取 这 种 方 
式 或 那 种 方式 。 

此 外 ,一 个 DBMS 可 以 计算 一 个 给 定 属性 诸 值 的 直方 图 。 如 果 V(R,4) 不 是 太 大 ， 则 该 直方 
图 由 具有 属性 4 的 每 个 值 的 元 组 的 数目 (或 一 部 分 ) 组 成 。 如 果 这 个 属性 存在 大 量 不 同 值 ， 则 
只 有 最 常 出 现 的 值 被 单独 记录 ， 而 其 他 值 则 分 组 统计 。 最 常用 的 直方 图 类 型 是 : 

1. 等 帘 。 选 定 宽度 w 以 及 常量 mw。 提供 值 为 "的 元 组 数 计 数 ，v 的 范围 是 mw 和 v < vow, vow 
所 Vy< vot+2w， 等 等 。 值 wo 是 最 小 可 能 值 或 当前 所 知 的 最 小 值 。 在 后 一 种 情况 下 ， 若 见 到 新 的 更 
小 的 值 ， 我 们 就 把 vo 减少 w， 并 在 直方 图 中 增加 一 个 计数 。 

2. 等 高 。 它 们 是 公共 的 “百分数 ”( percentile )。 我 们 选择 某 个 分 数 p， 列 出 最 小 值 、 比 最 
小 值 多 p 的 值 、 比 最 小 值 多 2p 的 值 ， 等 等 ， 直 到 最 大 值 。 

3. 最 频 值 (most-frequent-value)。 我 们 列 出 最 为 公共 的 值 以 及 它们 的 出 现 次 数 。 这 个 信息 可 
以 连同 所 有 其 他 值 作为 一 组 的 出 现 次 数 计数 一 起 提供 , 或 除了 其 他 值 的 等 宽 或 等 高 直方 图 之 外 ， 
我 们 再 记录 常 出 现 的 值 。 

使 用 直方 图 的 一 个 优点 是 连接 的 大 小 估计 比 按 16.4 节 中 的 简化 方法 估计 更 准确 。 尤 其 当 连 
接 属性 的 值 显 式 地 出 现在 参加 连接 的 两 个 关系 的 直方 图 上 时 ， 我 们 可 以 准确 地 知道 结果 中 有 多 
少 元 组 将 具有 该 值 。 对 于 那些 没有 显 式 地 出 现在 一 个 或 两 个 关系 直方 图 上 的 连接 属性 的 值 ， 我 
们 按 16.4 节 中 的 方法 估计 其 连接 后 的 结果 。 然 而 ， 如 果 使 用 等 宽 直方 图 ， 两 个 关系 的 连接 属性 
有 相同 的 带宽 (band)， 则 我 们 可 以 估计 相应 带宽 上 连接 的 大 小 ， 并 对 这 些 估计 值 求 和 。 这 个 结 
果 是 正确 的 ， 因 为 只 有 在 相应 带宽 上 的 元 组 才能 连接 。 下 面 的 例子 说 明了 如 何 进行 基于 直方 图 
的 估计 ; 我 们 在 后 面 不 使 用 直方 图 作 估计 。 

例 16.27 ”考虑 关于 3 个 最 频 值 及 其 计数 以 及 对 其 余 值 进行 分 组 的 直方 图 。 假 设 我 们 想 要 计 
BERR (a,b) > 5S(5,c)。 令 R.b 的 直方 图 是 : 


1: 200, 0: 150, 5: 100， 其 他 值 ，550 


即 ，R 的 1000 个 元 组 中 ， 有 200 个 b 值 为 1，150 个 b 值 为 0，100 个 bp 值 为 5s。 此 外 ， 有 550 个 元 
组 的 b 值 不 为 0%。、1 和 5， 且 其 余 值 中 的 任 一 值 出 现 次 数 不 超 过 100。 
令 S.b 的 直方 图 是 : 


0: 100, 1: 80, 2: 70， 其 余 值 : 250 


并 且 假 设 VCR,b)=14，V(S,b)=13。 即 ，R 的 未 知 bp 值 的 550 个 元 组 被 分 成 11 个 值 ， 每 个 值 平均 
有 50 个 元 组 ，S 的 未 知 b 值 的 250 个 元 组 被 分 成 10 个 值 ， 每 个 值 平 均 有 25 个 元 组 。 

值 0O 和 1 在 两 个 直方 图 中 显 式 地 出 现 ， 因 此 我 们 可 以 计算 R 的 150 个 b=0 的 元 组 与 5 的 具有 相 
同 b 值 的 100 个 元 组 的 连接 结果 有 15 000 个 元 组 。 类 似 地 ，200 个 b=1 的 R 元 组 与 5=1 的 80 个 $ 元 组 
的 连接 结果 有 16 000 个 元 组 。 

对 其 余 元 组 影响 的 估计 则 更 为 复杂 。 我 们 将 继续 作 如 下 假设 在 具有 较 小 值 集 的 关系 中 
(本 例 是 5) 出 现 的 每 个 值 将 在 其 他 关系 的 值 集中 出 现 。 因 此 ， 在 $ 的 其 余 11 个 bp 值 中 ， 我们 可 知 
其 中 值 之 一 是 2， 并 生 假 定 男 一 个 值 是 ;5， 因 为 它 是 R 中 最 常 出 现 的 值 之 一 。 我 们 估计 2 在 R 中 出 
现 50 次 ，5 在 $ 中 出 现 25 次 。 这 些 估计 是 分 别 通过 假设 该 值 是 它 的 关系 的 直方 图 中 “其 他 ” 值 中 
的 一 个 而 获得 的 。B 值 为 2 的 额外 元 组 数 是 70 x 50 = 3500，b 值 为 5 的 其 余 元 组 数 是 100 x 25 = 
2500. 

最 后 ， 在 两 个 关系 中 还 有 其 他 9 个 b 值 ， 我 们 估计 它们 每 一 个 值 在 R 中 出 现 50 次 ， 在 $ 中 出 
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现 25 次 。 因 此 9 个 值 中 的 每 一 个 给 结果 中 增加 的 元 组 数 是 50 x 25 = 1250。 因 而 结果 大 小 的 估 
计 是 : 
15000+16000+3500+2500+9 x 1250 


即 48 250 个 元 组 。 注 意 ，16.4 节 中 较为 简单 的 估计 是 1000 x 500/14, B035 714, 它 是 基于 每 个 
关系 中 的 每 个 值 出 现 次 数 均等 的 假设 。 口 


例 16.28 ”在 这 个 例子 中 ， 我 们 假定 等 宽 划分 。 我 们 还 将 说 明 在 知道 两 个 关系 的 值 几乎 不 
相交 的 情况 下 ， 如 何 影响 对 连接 结果 大 小 的 估计 。 关 系 是 : 


Jan(day, temp) 
July (day, temp) 


查询 是 : 

SELECT Jan.day，July.day 

FROM Jan, July. 

WHERE Jan.temp = July.temp; 
即 ， 找 出 在 1 月 份 和 7 月 份 中 有 相同 温度 的 日 期 对 。 这 个 查询 计划 是 对 Jan 与 July 在 温度 上 做 
等 值 连接 ， 然 后 投影 到 每 个 day 属 性 上 。 

假设 关系 Jan 与 July 有 关 温 度 的 直方 图 由 如 图 16-24 所 示 的 表 给 定 ?。 一 般 而 言 ， 如 果 两 
个 连接 属性 有 相同 带宽 集 ( 可 能 关系 之 一 的 某 些 带宽 为 空 ) 的 等 宽 直 方 图 ， 则 我 们 可 以 通过 估 
计 相 应 带宽 的 每 一 对 的 连接 的 大 小 并 求 和 来 估计 连接 的 大 小 。 

如 果 相 应 带宽 分 别 肛 与 个 元 组 ， 且 在 这 一 带宽 中 值 的 个 数 是 V， 则 在 那些 带宽 上 连接 
的 元 组 数 估计 是 TiTWV， 遵 从 16.4.4 节 中 制定 的 原则 。 对 于 图 16-24 的 直方 图 ， 许 多 积 是 9， 因为 
包 与 之 中 的 某 一 个 为 0。 仅 有 的 两 个 均 不 是 0 的 带宽 是 40~49 与 50~59。 因为 V=10 是 带宽 的 宽度 ， 
40~49 的 带宽 产生 10 x 5/10=5 个 元 组 ， 而 50 ~ 59 带 宽 则 产生 5 x 20/10=10 个 元 组 。 

因此 这 个 连接 大 小 估计 是 5+10=15 个 元 组 。 如 果 我 们 没有 直方 图 ， 只 知道 每 个 关系 有 
245 个 元 组 分 布 于 0~99 的 100 个 值 之 中 ， 则 我 们 对 连接 大 小 的 估计 是 245 x 245/100=600 个 元 
组 。 口 





图 16-24 温度 的 直方 图 


但 ”赤道 南部 的 朋友 应 当 将 1 月 份 与 7 月 份 的 列 对 调 。 
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不 同 的 代价 估计 方法 
前 面 已 经 提 到 了 将 磁盘 IO 的 估计 作为 预测 查询 实际 代价 的 一 个 好 方法 。 但 有 时 候 估 
计 磁 盘 I/0 可 能 太 复杂 并 且 容 易 出 错 ， 而且 如 果 要 估计 的 是 逻辑 计划 而 不 是 物理 计划 的 代 
价 ，LO 估 计 可 能 行 不 通 。 在 这 种 情况 下 ， 只 考虑 16.4 节 讨论 的 中 间 结 果 大 小 可 能 是 一 种 
代价 估计 的 有 效 方 法 。 记 住 ， 查 询 优 化 器 只 需要 比较 查询 计划 ， 而 不 需要 预测 实际 的 执 
行 时 间 。 另 一 方面 ， 磁 盘 L/O 作 为 代价 预测 有 时 可 能 过 于 粗略 。 一 个 更 详细 的 代价 估计 应 
考虑 CPU 时 间 ， 进 一 步 详 细 的 话 还 应 结合 磁盘 访问 块 可 能 的 位 置 来 考虑 磁头 的 运动 。 








16.5.2 计算 统计 量 

在 大 多 数 DBMS 中 ， 统 计量 的 周期 性 计算 是 一 种 规范 。 这 有 几 个 原因 。 首 先 ， 统 计量 在 短 
时 间 内 不 会 发 生 剧烈 变化 。 其 次 ， 一 有 旦 统计 量 被 一 致 性 地 用 于 所 有 计划 ， 那 么 即使 是 部 分 不 准 
确 的 统计 量 也 是 非常 有 用 的 。 第 三 ， 选 择 保持 统计 量 的 最 新 状态 可 能 使 统计 量 自身 成 为 数据 库 
中 的 “热点 ”， 因 为 统计 量 的 读 是 很 频繁 的 ， 我 们 也 不 愿 频繁 地 去 更 新 它们 。 

统计 量 的 重新 计算 在 一 段 时 间或 者 若干 更 新 之 后 会 被 自动 触发 。 但 是 ， 数 据 库 管理 员 应 
意 ， 如 果 查 询 优化 器 根据 正常 的 原则 选择 了 执行 较 差 的 查询 计划 ， 避 可 能 会 请求 重新 计算 统计 
量 以 便 改正 这 一 问题 。 

计算 整个 关系 R 的 统计 量 可 能 会 非常 昂贵 ， 尤 其 当 计算 关系 的 每 一 个 属性 a 的 V (R, a) 时 
(或 者 更 为 恶劣 ， 计 算 每 个 a 的 直方 图 )。 通 常 的 方法 是 通过 数据 的 部 分 采样 来 计算 近似 的 统计 
Zo 例如， 设想 我 们 想 以 一 小 部 分 元 组 为 样本 来 得 到 V( R，a ) 的 一 个 估计 值 。 可 信 的 统计 计 
算 可 能 十 分 复杂 ， 这 取决 于 若干 假设 ,例如 属性 a 的 值 是 否 按 Zipfan 分 布 或 者 其 他 分 布 方式 一 
致 性 分 布 。 然 而 ， 直 觉 是 这 样 的 ;如果 观察 R 的 一 个 小 样本 ， 比 方 说 R 的 1% 的 元 组 ， 可 以 发 现 
我 们 见 到 的 a 的 大 多 数值 是 不 同 的 ， 这 意味 着 V( R，a ) 5T (R) 可 能 很 接近 。 如 果 发 现 样 本 
中 只 有 很 少 的 不 同 的 a 值 ， 则 意味 着 我 们 已 经 看 到 了 当前 关系 中 a 的 大 多 数值 了 。 
16.5.3 减少 逻辑 查询 计划 代价 的 启发 式 

有 关 查 询 或 子 查询 的 代价 估计 的 一 个 重要 用 途 是 应 用 查询 的 启发 式 变 换 。 在 16.3.3 节 我 们 
已 经 看 到 ， 某 些 应 用 中 与 代价 估计 无 关 的 启发 式 可 期 望 几乎 肯定 会 改善 逻辑 查询 计划 的 代价 。 
在 树 中 下 推选 择 是 这 种 转换 的 典型 例子 。 

然而 ， 在 查询 优化 处 理 中 还 存在 其 他 方法 ,依据 一 个 转换 之 前 与 之 后 的 代价 估计 ， 当 该 转 
换 呈 低 代价 时 我 们 就 应 用 这 个 转换 ， 否 则 避免 使 用 这 个 转换 。 尤 其 是 当 正 在 产生 所 想 要 的 逻辑 
查询 计划 时 ,我 们 可 能 考虑 许多 可 能 的 转换 以 及 这 些 转 换 之 前 与 之 后 的 代价 。 举 个 例子 来 说 明 
这 些 问题 及 其 过 程 。 

例 16.29 考虑 如 图 16-25 所 示 的 初步 的 逻辑 查询 计划 ， 并 令 关 系 R 与 5 的 统计 量 如 下 所 示 : 


b) 5(b,¢) 
5000  T(S) = 2000 


=100 V(S,b) = 200 
V(S,¢) = 100 
为 从 图 16-25 产 生 最 终 的 逻辑 查询 计划 ， 我 们 坚持 尽 可 能 下 推选 择 。 不 过 ， 我 们 不 能 确信 
下 推 5 到 连接 下 面 是 否 有 意义 。 因 此 ， 由 图 16-25 产 生 了 如 图 16-26 所 示 的 两 个 查询 计划 ;它们 
的 不 同 之 处 在 于 ， 是 在 连接 之 前 还 是 在 连接 之 后 消除 重复 。 注 意 ， 在 计划 (a) 中 ，6 被 下 推 到 桂 


Emi 539 





的 两 个 分 枝 中 。 如 果 有 与 8 已 知 无 重复 ， 则 分 枝 中 的 5 可 以 去 除 。 

在 16.4.3 节 中 ， 我 们 已 经 知道 如 何 估计 选择 结果 的 大 小 ; 我 们 用 TC(R) 除 以 VR,a) 得 50。 并 且 
我 们 也 知道 如 何 估计 连接 的 大 小 ; 将 参数 的 大 小 相 乘 ， 并 除 以 max (V(R,b),W(S,b)), £9200, 8 
们 所 不 知道 的 是 重复 消除 之 后 关系 大 小 的 估计 。 






结果 大 小 的 估计 不 必 相 同 
注意 ， 在 图 16-26 中 ， 两 树 根部 的 估计 不 同 : 一 个 是 250， 另 一 个 是 500。 因 为 估计 是 
一 个 不 精确 的 事件 ， 会 发 生 这 类 异常 。 事 实 上 ， 这 是 保证 一 致 性 的 一 个 例外 ， 如 我 们 在 
16.4.6 节 中 所 做 的 那样 。 
直观 上 讲 ， 计 划 (b) 的 估计 较 高 是 因为 ， 如 果 尺 与 8 中 有 重复 ， 这 些 重复 在 连接 中 会 相 
乘 。 例 如 ， 对 于 及 中 出 现 3 次 、$ 中 出 现 2 次 的 元 组 ， 在 连接 Ra 8 中 会 出 现 6 次 。 我 们 用 于 
估计 5 结果 大 小 的 简单 公式 没有 考虑 重复 的 效果 被 原先 的 操作 放大 的 可 能 性 。 
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图 16-25 例 16.29 的 逻辑 查询 计划 图 16-26 最 佳 逻辑 查询 计划 的 两 个 候选 计划 


首先 考虑 5(61o(R)) 的 大 小 估计 。 由 于 os-1o(R) 只 有 一 个 a 值 却 有 100 个 b 信 ， 并 且 这 个 关系 
估计 有 100 个 元 组 ，16.4.7 节 的 规则 告诉 我 们 , 每 个 属性 的 值 计数 之 积 不 是 一 个 限定 因子 。 因此， 
我 们 估计 6 结果 大 小 是 01o(R) 元 组 数 的 一 半 。 所 以 ， 图 16-26(a) 说 明了 6 (010o(R) 的 元 组 数 估 计 
是 50。 

现在 考虑 图 16-26(b) 中 6 结果 的 估计 。 连 接 有 一 个 a 值 ，b 值 是 min(VR, b), V(S,b))=100, 
c 值 是 V(S,c) = 100。 因 此 值 计数 的 乘积 不 限制 8 的 结果 大 小 。 我 们 估计 这 个 结果 是 500 个 元 组 ， 
或 连接 中 一 半 的 元 组 数 。 

为 比较 图 16-26 中 的 两 个 计划 ， 我 们 把 除了 根 结 点 与 叶 结 点 之 外 的 所 有 结 点 的 大 小 估计 相 
加 。 我 们 排除 根 节 点 与 叶 结 点 ， 是 因为 这 些 结 点 的 大 小 不 依赖 于 计划 的 选取 。 对 于 计划 a 这 个 
代价 ， 即 内 部 结 点 估计 大 小 之 和 ， 是 100+50+1000=1150; 而 计划 b 的 和 是 100+1000=1100。 因 
此 ,根据 这 个 小 差额 我 们 推 知 ， 延 迟 重复 消除 到 最 后 是 一 个 较 好 的 计划 。 我 们 可 能 得 出 相反 的 
结论 ， 比 方 说 如 果 R 或 5 只 有 少量 b 值 。 此 时 连接 的 大 小 会 更 大 ， 使 得 计划 b 的 代价 更 大 。 口 


16.5.4 物理 计划 的 枚 举 技术 
现在 我 们 来 考虑 在 逻辑 查询 计划 到 物理 查询 计划 的 转换 中 如 何 使 用 代价 估计 。 基 本 的 方法 
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称 为 穷尽 法 ( exhaustive )， 它 对 16.4 节 开头 中 列 出 的 各 种 问题 中 的 每 一 个 选择 加 以 组 合 (连接 的 
次 序 、 操 作 符 的 物理 实现 ， 等 等 )。 每 个 可 能 的 物理 计划 被 赋予 一 个 估计 的 代价 ， 并 选择 具有 
最 小 代价 的 一 个 计划 。 
不 过 ， 存 在 多 种 选择 物理 计划 的 方法 。 在 本 节 中 ， 我 们 将 概述 已 被 使 用 的 各 种 方法 ,在 
16.6 节 讲述 有 关 选 择 连接 次 序 的 重要 问题 中 的 主要 思想 。 在 继续 讲解 之 前 ， 先 对 搜索 可 能 的 物 
理 计划 间 的 两 个 主要 方法 加 以 说 明 : 
„AAAF: 这 里 ， 从 逻辑 查询 计划 树 的 根部 开始 向 下 进行 。 对 于 根 结 点 操作 的 每 个 可 能 
的 实现 ， 考 虑 计算 其 参数 的 每 种 可 能 的 方法 ， 并 计算 每 种 组 合 的 代价 ， 取 最 优 的 一 个 e。 
HRAL: 对 于 逮 辑 查询 树 的 每 个 子 表 达 式 ， 计 算 用 于 计算 该 子 表达 式 的 所 有 可 能 方法 
的 代价 。 子 表达 式 E 的 可 能 性 与 代价 是 通过 考虑 子 表达 式 E 的 各 种 选项 并 按 所 有 可 能 的 方 
式 与 E 的 根 操作 符 的 实现 相 结 合 来 进行 计算 。 
实际 上 ， 如 果 做 最 广泛 的 解释 则 两 种 方法 之 间 没 有 太 大 的 区 别 ， 因 为 每 一 方法 都 考虑 了 实 
现 查 询 树 中 每 个 操作 符 各 种 方式 的 组 合 。 当 限制 搜索 时 ， 自 顶 向 下 方法 使 我 们 可 能 去 掉 某 些 自 
底 向 上 方法 不 能 去 除 的 选项 。 但 是 ， 有 效 限制 选择 的 自 底 向 上 策略 已 被 研究 出 来 了 ， 因 此 下 面 
我 们 集中 在 自 底 向 上 的 方法 中 。 
实际 上 ， 你 可 能 已 经 注意 到 自 底 向 上 方法 已 有 明显 的 简化 ， 其 中 我 们 在 计算 较 大 子 表 达 式 
的 计划 时 只 考虑 每 个 子 表达 式 的 最 佳 计划 。 这 个 方法 ， 在 下 面 列 出 ， 称 为 动态 规划 ， 不 保证 产 
生 最 优 计划 ， 尽 管 它 常常 可 获得 最 优 。 后 面 也 列 出 了 称 为 Selinger 风 格 (或 系统 R 风 格 ) 的 优化 方 
法 ， 它 利用 了 一 个 子 表达 式 计 划 中 的 某 些 计 划 所 具有 的 特性 ， 目 的 是 为 了 从 对 于 某 些 子 表达 式 
不 是 最 优 的 计划 中 得 到 总 体 上 最 优 的 计划 。 
启发 式 选 择 
方法 之 一 是 使 用 通常 用 于 选择 逻辑 计划 的 方法 选择 物理 计划 ， 基 于 启发 式 作 一 系列 选择 。 
在 16.6.6 节 中 ， 我 们 将 讨论 连接 次 序 的 “ 贪 束 ” 启 发 式 。 在 该 方法 中 ,我 们 由 连接 两 个 具有 最 - 
小 估计 大 小 的 关系 开始 ， 然 后 对 这 个 连接 结果 以 及 参与 连接 的 关系 集合 重复 这 个 过 程 。 有 许多 
可 应 用 的 启发 式 ; 下 面 是 一 些 最 常用 的 启发 式 : 
1. 如 果 人 逻辑 计划 需要 选择 4..(R)， 且 保存 的 关系 R 在 属性 4 上 有 索引 ， 则 执行 一 个 索引 扫描 
以 获得 4 值 等 于 c 的 R 的 元 组 。 
2. 更 一 般 地 讲 ， 如 果 选 择 涉及 像 上 面 4=c 那 样 的 一 个 条 件 以 及 其 他 条 件 ， 我 们 可 以 先进 行 
一 次 索引 扫描 ， 然 后 对 元 组 中 作 进 一 步 选择 来 实现 这 个 选择 ， 我 们 将 用 物理 操作 符 fiLter 来 表 
示 。 有 关 这 个 问题 在 16.7.1 节 中 作 进 一 步 讨 论 。 
3. 如 果 连 接 的 一 个 参数 在 连接 属性 上 有 索引 ， 则 采用 索引 连接 ， 其 中 该 关系 在 内 层 循环 
中 。 
4. 如 果 连 接 的 一 个 参数 是 排序 的 ， 则 采用 排序 连接 比 用 散 列 连接 好 ， 尽 管 未 必 比 用 索引 连 
接 好 ， 如 果 可 能 的 话 。 
5. 当 计 算 三 个 或 多 个 关系 的 并 或 交 时 ， 先 对 最 小 关系 进行 组 合 。 





O 记得 在 16.3.4 节 中 讲 到 ,逻辑 查询 计划 树 的 单个 结 点 可 能 表示 单个 可 交换 、 可 结合 操作 符 的 各 种 使 用 方法 ， 如 连 


接 。 因 此 ， 考 虑 单个 结 点 的 所 有 可 能 计划 本 身 可 能 涉及 非常 多 选择 的 枚 举 。 
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分 枝 界 定 计划 枚 举 

这 个 方法 在 实际 中 经 常 使 用 ， 它 通过 使 用 启发 式 为 整个 逻辑 查询 计划 找到 一 个 好 的 物理 计 
划 开 始 。 令 这 个 计划 的 代价 为 C。 然 后 当 我 们 考虑 这 个 子 查询 的 其 他 计划 时 ， 可 以 去 除 那些 代 
价 大 于 C 的 子 查询 的 计划 ， 因 为 这 个 子 查询 的 计划 不 可 能 参与 到 比 我 们 已 知 计划 更 好 的 完整 查 
询 的 计划 中 。 类 似 地 ， 如 果 我 们 构造 出 代价 小 于 C 的 完整 查询 的 一 个 计划 ， 则 在 此 后 的 物理 查 
询 计划 空间 搜索 中 用 较 好 计划 的 代价 替换 C。 

这 种 方法 一 个 重要 的 好 处 在 于 我 们 可 以 判定 何 时 中 止 搜索 并 获得 到 目前 为 止 最 优 的 计划 。 
例如 ， 如 果 代价 C 较 小 ， 则 即便 可 以 发 现 更 好 的 计划 ， 为 找到 这 些 计 划 所 花费 的 时 间 可 能 超过 
C， 因 此 继续 搜索 是 没有 意义 的 。 但 是 ， 如 果 C 较 大 ， 则 花 点 时 间 希 望 找到 一 个 更 快 的 计划 是 
明智 的 。 

Mek , 

这 个 方法 从 一 个 依据 启发 式 选 定 的 物理 计划 开始 ， 实 际 上 我 们 是 在 物理 计划 与 代价 的 一 个 
“峡谷 ”中 进行 搜索 。 接 着 我 们 可 以 对 计划 作 小 的 修改 ， 如 用 另 一 种 方法 替换 一 个 操作 符 的 一 
个 方法 ， 或 通过 使 用 结合 律 与 /或 交换 律 对 连接 重新 排序 ， 找 到 具有 较 低 代价 的 “邻近 ”计划 。 
如 果 我 们 找到 一 个 计划 ， 小 的 修改 已 不 能 产生 代价 更 低 的 计划 ， 则 选择 这 个 计划 作为 选 定 的 物 
理 查询 计划 。 
动态 规划 

在 这 个 一 般 性 自 底 向 上 策略 的 变 体 策 略 中 ， 对 于 每 个 子 表 达 式 ， 我 们 仅 保留 最 小 代价 的 计 
划 。 当 自 底 向 上 对 这 棵 树 进行 处 理 时 ， 假 定 每 个 子 表达 式 使 用 了 最 佳 计 划 ， 我 们 对 每 个 结 点 的 
可 能 实现 加 以 考虑 。 我 们 在 16.6 节 深入 研究 这 个 方法 。 

Selinger 风 格 优 化 

这 个 方法 改进 了 动态 规划 方法 ， 不 仅 记录 了 每 个 子 表达 式 的 最 小 代价 的 计划 ， 而 且 也 记录 
了 那些 具有 较 高 代价 但 所 产生 结果 的 顺序 对 表达 式 树 中 较 高 层 很 有 用 的 计划 。 这 类 有 趣 的 排序 
的 例子 是 当 子 表达 式 的 结果 按 以 下 属性 排序 : 

1. 在 排序 (9 操作 符 根 结 点 中 说 明 的 属性 。 

2. 后 分 组 操作 符 (7 的 分 组 属性 。 

3. 后 连接 的 连接 属性 。 

如 果 我 们 把 一 个 计划 的 代价 视 为 是 中 间 关 系 的 大 小 之 和 ， 则 对 一 个 变 元 进行 排序 似乎 没有 
什么 优点 。 然 而 ， 如 果 我 们 使 用 更 准确 的 度量 ， 如 磁盘 IO 数 ， 作 为 代价 ， 则 当 我 们 使 用 15.4 节 
中 基于 排序 的 算法 之 一 时 ， 对 某 一 变 元 排序 的 优点 就 变 得 清晰 了 ， 为 已 排序 的 参数 节省 了 第 一 
趟 工作 。 

16.5.5 习题 
习题 16.5.1 使 用 R.b 与 5.6 的 直方 图 估计 连接 R(a,b)m SC(b,c) 的 大 小 。 假 设 V(R,b) = V(S,b) = 
20， 两 个 属性 的 直方 图 给 出 了 4 个 最 公共 值 的 频率 。 列 表 如 下 ; 





| HIS HE 
+ 习题 16.5.2 如 果 我 们 有 如 下 直方 图 信息 ， 估 计 连 接 Re. 已 ea S(b,c) 的 大 小 : 
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习题 16.5.3 ”在 例 16.29 中 ， 我 们 建议 减少 两 个 名 为 5 的 属性 的 值 的 数目 可 能 使 图 16-26 中 的 
计划 a 比 计划 b 更 好 。 对 于 什么 样 的 值 : 

* a) V(R,b) 

b) V(S,b) 

| 将 使 计划 (a) 比 计划 (b) 的 代价 更 低 ? 
习题 16.5.4 考虑 四 个 关系 R、S、T 和 V。 它 们 各 自分 别 有 200、300、400 和 500 个 元 组 ， 随 
机 并 相互 独立 地 从 1000 个 元 组 的 同一 池 中 选取 。 例 如 ， 在 R 中 找到 任意 给 定 元 组 的 概率 是 
1/5， 对 于 5 是 3/10。 一 -元 组 同时 在 R 与 5 中 的 概率 是 3/50。 

* a) RUSUTUV 所 期 望 的 大 小 是 多 少 ? 
b) RNSNMTNV 所 期 望 的 大 小 是 多 少 ? 
co) 什么 样 的 并 的 顺序 得 到 最 小 的 代价 (估计 中 间 关 系 大 小 的 总 和 )? 
d) 什么 样 的 交 的 顺序 得 到 最 小 的 代价 (估计 中 间 关 系 大 小 的 总 和 )? 
习题 16.5.5 如 果 四 个 关系 有 从 1000 个 元 组 中 随机 抽取 的 500 个 。 ， 重 复习 题 16.5.4。 
! 习题 16.5.6 假设 我 们 希望 计算 表达 式 


(RaD)PB S(b,c) ma Ned) 


即 ， 我 们 把 三 个 关系 作 连 接 得 到 在 属性 5 上 排序 的 结果 。 我 们 作 简 化 的 假设 : 
1. 我 们 不 会 先 对 R 与 7 作 连 接 ， 因 为 那 是 一 个 积 。 
2. 任何 其 他 连接 可 用 一 个 两 遍 排 序 连 接 或 散 列 连接 进行 ， 但 不 采用 其 他 的 方式 。 
3. 任何 关系 或 任何 表达 式 的 结果 ， 可 用 两 阶段 、 多 路 归并 排序 算法 排序 ， 但 不 采用 任 
何其 他 算法 。 
4. 要 连接 的 两 个 关系 的 结果 将 作为 参数 传送 给 最 后 的 连接 ， 一 次 一 块 ， 在 磁盘 上 不 作 
临时 存放 。 
846 5. 每 个 关系 占 1000 块 ， 两 个 关系 的 任 一 连接 结果 占 5000 块 。 
基于 这 些 假 设 回答 以 于 问题 : 
* a) Selinger 风 格 的 优化 将 考虑 所 有 的 子 表达 式 与 顺序 是 什么 ? 
b) 使 用 磁盘 1/O 数 作为 代价 度量 s ,说明 哪个 查询 计划 得 到 最 小 的 代价 。 

! 习题 16.5.7 对 于 某 些 表达 式 E 和 严 ( 你 可 以 选择 )， 给 一 个 形 如 Eos 的 逻辑 查询 计划 的 
例子 ,其 中 使 用 最 佳 计划 计算 E 与 下 不 允许 为 最 后 连接 的 选择 算法 ， 该 算法 用 于 最 小 化 计 
算 整 个 表达 式 的 总 的 代价 。 对 于 可 用 的 主 存 缓冲 区 数目 与 E、F 中 所 提 及 的 关系 大 小 作 你 
所 希望 的 假设 。 


p 


x 


O 这 个 习题 的 相应 部 分 的 答案 没有 在 Web 上 发 布 。 
O 注意， 由 于 作 了 使 用 连接 方法 某 些 特别 的 假设 ， 我 们 可 以 估计 磁盘 1O 数 ， 而 不 是 依赖 于 更 简单 但 更 不 正确 的 
元 组 计数 作为 代价 估计 。 
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16.6 连接 顺序 的 选择 


在 本 节 中 ,我们 着 眼 基于 代价 的 优化 中 的 关键 问题 : 为 三 个 或 三 个 以 上 关系 的 《自然 ) 连 
接 选 择 顺序 。 该 思想 同样 适用 于 其 他 像 并 和 交 这 样 的 二 元 操作 ， 但 是 在 实际 应 用 中 这 些 操作 并 
不 是 那么 重要 ， 因 为 它们 与 连接 相 比 ， 只 需要 很 少 的 时 间 ， 并 且 很 少 以 连续 三 个 或 三 个 以 上 的 
形式 出 现 。 
16.6.1 连接 的 左右 变 元 的 意义 

当选 择 连接 顺序 时 ， 我 们 应 该 记 住 在 第 15 章 中 提 到 的 连接 方法 中 大 多 数 是 不 对 称 的 ， 也 就 
是 说 ,两 个 变 元 关系 所 代表 的 意义 是 不 同 的 ， 这 些 连接 的 代价 取决 于 哪 种 关系 代表 何 种 意义 。 
可 能 最 为 重要 的 连接 是 在 15.2.3 节 介绍 的 一 越 连接 ， 它 将 一 个 关系 〔 较 小 的 优先 ) BAER, 
并 形成 一 种 结构 ， 例 如 一 个 散 列 表 ， 从 而 可 以 便利 地 匹配 来 自 其 他 关系 中 的 元 组 。 然 后 该 连接 
再 读 人 其 他 关系 ， 每 次 一 块 ， 并 将 关系 中 的 元 组 和 已 存储 在 内 存 中 的 元 组 进行 连接 操作 。 

假设 当 我 们 选择 一 个 物理 计划 时 ， 决 定 用 一 趟 连接 。 然 后 我 们 应 该 将 连接 的 左 变 元 作为 
( 较 小 的 ) 关系 存储 在 主 存 的 数据 结构 中 ( 该 关系 称 为 “构建 关系 ”)， 同 时 以 每 次 一 块 读 和 人 连 
接 的 右 变 元 并 将 它 的 元 组 与 已 存储 的 关系 进行 匹配 (“ 探 针 关 系 ”)。 以 变 元 作为 区 分 的 其 他 连 
接 算法 包括 

1. 找 套 循环 连接 ， 在 这 种 连接 中 我 们 认为 左 变 元 是 外 层 循 环 关系 。 

2. 索 引 连接 ， 我 们 认为 这 种 连接 的 右 变 元 有 索引 。 
16.6.2 连接 树 

当 有 两 个 关系 的 连接 时 ， 我 们 需要 给 变 元 排序 。 按 照 惯例 ， 我 们 应 该 选择 估计 数值 较 小 的 
变 元 作为 左 变 元 。 应 注意 以 上 提 到 的 算法 一 一 一 趟 连接 、 诬 套 循环 连接 以 及 索引 连接 一 如 果 
以 较 小 的 作为 左 变 元 ， 则 每 个 算法 将 会 运行 最 佳 。 更 为 准确 地 说 ， 一 趟 连接 和 藤 套 循环 连接 都 
为 较 小 的 关系 〈 构建 关 系 ， 或 者 外 层 循环 ) 指定 特定 的 意义 ， 而 只 有 当 一 个 关系 是 小 的 ， 并 且 
另外 一 个 关系 有 一 个 索引 时 ， 索 引 连 接 通常 才 是 合理 的 选择 。 各 个 变 元 的 大 小 具有 重要 的 并 且 
可 辨别 的 差别 ， 这 是 非常 普遍 的 ， 因 为 一 个 涉及 到 连接 的 查询 往往 会 涉及 至 少 一 个 属性 上 的 选 
择 ， 并 且 这 个 选择 使 得 一 个 关系 的 估计 值 大 大 减 小 。 

例 16.30 回忆 图 16-4 中 的 以 下 查询 


SELECT movieTitle 

FROM StarsIn, MovieStar 

WHERE starName = name AND 
birthdate LIKE ’%1960’; 


我 们 将 关系 StartsIn 与 关系 MovieStar 的 选择 进行 连接 ， 从 而 可 以 推导 出 图 16-21 所 示 
的 首选 逻辑 查询 计划 。 我 们 并 没有 给 定 关系 StartsIn 和 MovieStar 的 估计 值 ， 但 是 我 们 可 
以 认为 在 一 年 中 出 生 的 明星 中 进行 选择 将 会 在 4oviestar 中 产生 大 约 1/50 的 三 元 组 。 由 于 每 
一 部 电影 通常 有 几 个 明星 ， 我 们 假设 StarsIn 在 开始 将 大 于 Moviestar， 这样， 连接 的 第 二 
AETC, Ooinhdae uike 1960' (MovieStar) , 会 远 小 于 第 一 个 变 元 starsIn。 我 们 得 出 的 结论 与 
图 16-21 中 所 示 的 变 元 的 顺序 应 该 是 相反 的 ， 这 样 ， 就 选择 Moviestazr 为 左 变 元 。 口 


当 有 两 个 关系 时 ， 对 于 一 棵 连接 树 只 有 两 种 选择 一 一 在 两 个 关系 中 任 选 一 个 作为 左 变 元 。 
当 连 接 有 两 个 以 上 的 关系 时 ， 可 能 的 连接 树 的 数量 会 迅速 增长 。 比 如 ， 图 16-27 所 示 为 有 四 种 关 
系 R、S、 了 和 UU 进行 连接 时 三 种 可 能 的 树 的 形状 。 由 于 有 变 元 顺序 ， 并 且 对 于 n 种 情况 将 会 有 nl 
种 方法 对 其 进行 排序 ， 当 考虑 叶 节点 的 各 种 可 能 的 标识 时 ， 每 棵 树 将 会 代表 4!=24 棵 不 同 的 树 。 
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(a) (b) (c) 
图 16-27 对 四 种 关系 进行 连接 的 方法 


16.6.3 左 深 连接 树 

图 16-27(a) 是 称 之 为 左 深 树 的 一 个 例子 。 一 般 来 说 ， 一 个 二 叉 树 如 果 所 有 右边 的 子女 都 是 
叶 节 点 的 话 ， 它 就 是 左 深 树 。 同 样 ， 如 图 16-27(e) 所 示 的 树 ， 所 有 左边 的 子女 都 是 叶 节 点 ， 这 
样 的 树 称 为 右 深 树 。 如 图 16-27(b) 所 示 的 树 既 不 是 左 深 树 也 不 是 右 深 树 ， 称 之 为 紧密 树 。 在 下 
面 我 们 将 只 考虑 以 左 深 树 作为 可 能 的 连接 顺序 来 讨论 一 个 双重 优点 。 

1. 对 于 给 定 叶 节点 的 可 能 的 左 深 树 的 数目 是 很 大 的 ， 但 几乎 不 会 像 所 有 树 的 数目 那样 大 。 
因此 ， 如 果 我 们 将 搜索 限制 在 左 深 树 ， 查 询 计划 的 搜索 将 可 以 用 于 比较 大 的 查询 。 

2. 用 于 连接 的 左 深 树 可 以 和 通用 的 连接 算法 很 好 地 交互 一 尤其 是 柑 套 循环 连接 和 一 趟 连 
接 。 基 于 左 深 树 和 这 些 算法 的 查询 计划 将 会 比 非 左 深 树 所 用 的 同样 的 算法 更 有 效 。 

实际 上 ， 一 个 左 深 连接 树 或 右 深 连接 树 中 的 叶 节 点 可 以 是 带 有 除 连接 之 外 的 操作 符 的 内 部 
节点 。 例 如 图 16-21 在 技术 上 就 是 一 个 带 有 一 个 连接 操作 的 左 深 连 接 树 。 将 一 个 选择 应 用 于 连 
接 的 右 操 作 数 的 事实 并 没有 将 树 排除 在 左 深 树 类 之 外 。 

对 于 给 定 关 系数 目的 多 路 连接 , 左 深 树 的 数目 的 增长 几乎 不 会 像 所 有 树 的 数目 增长 那样 快 。 
对 于 n 个 关系 ,我 们 只 有 一 种 左 深 树 的 形状 可 以 以 n! 种 方法 来 分 配 关 系 。 对 这 nn 个 关系 有 同样 数 
目的 右 深 树 。 然 而 ，n 个 关系 的 树 形状 Ttn) 的 总 数目 由 以 下 的 递归 给 出 : 

T(1)=1 

T(n) = Dy TT (n 一 


对 于 第 二 个 等 式 的 解释 是 : 我 们 可 以 设置 根 的 左 子 树 中 的 叶 节 点 数目 为 介 于 1~m- 1 之 间 
的 任意 一 个 数 ;， 对 带 有 i 个 叶 节 点 的 树 的 排列 将 有 Ti) 种 方法 ， 用 其 中 任意 一 种 方法 对 这 些 叶 节 
点 进行 排列 。 同 样 ， 对 右 深 树 中 的 n - i 个 叶 节点 ， 用 Tn -种 方法 中 的 任意 一 种 对 其 进行 排列 。 

To) HAIL MAN =, T2)=1, 1(3)=2, N4)=5, 15)=14716)=42, BATE TN) FHL 
n!， 就 得 到 当 叶 节点 表示 各 种 关系 时 所 有 树 的 数目 。 因 此 ， 带 有 6 个 时 节点 且 各 叶 节 点 均 被 标 
识 的 树 的 数目 为 42 x 6!， 即 30 240， 其 中 6! 即 720 棵 是 左 深 树 ，、 另 外 720 棵 是 右 深 树 。 

现在 ,让 我 们 考虑 上 面 曾经 提 到 的 左 深 连接 树 的 第 二 个 优点 : 即 有 利于 形成 有 效 的 计划 。 
我 们 将 给 出 以 下 两 个 例子 : 

1. 如 果 用 的 是 一 趟 连接 ， 并 县 “建立 关系 ”是 在 左边 ， 则 任何 时 候 所 需 的 内 存 都 将 比 对 同 
样 关系 用 右 深 树 或 紧密 树 的 情况 要 小 。 

2. 如 果 是 用 人选 代 的 方法 实现 的 冉 套 循环 连接 ， 册 可 以 避免 多 次 构建 任意 中 间 关 系 。 

例 16.31 考虑 如 图 16-27(a) 所 示 的 左 深 树 ， 假 设 以 左 变 元 作为 建立 关系 ， 也 就 是 说 左 变 元 将 
会 存储 在 主 存 中 ， 对 每 三 个 m 操作 符 进行 一 个 简单 的 一 趟 连接 。 要 计算 Rpa S$， 需要 在 主 存 中 保 


留 R， 在 计算 Rm S 时 ， 我 们 还 要 在 主 存 中 保留 结果 。 这 样 ， 我 们 需要 B(R)+B(Rm 3) 的 主 存 缓冲 
区 。 如 果 选 择 最 小 的 关系 作为 R， 并 且 有 一 个 选择 将 使 得 R 更 小 ， 则 有 可 能 很 容易 获得 如 此 大 容 
量 的 缓冲 区 。 

算出 Rm 5 后 ， 我 们 需要 将 该 关系 与 7 进行 连接 。 然 而 ， 此 时 R 所 使 用 的 缓冲 区 不 再 需要 ， 
可 以 用 它 来 存储 (Rm 5)m 7 的 结果 。 同 样 ， 将 该 关系 与 0 进行 连接 时 ， 不 再 需要 保留 关系 R aS, 
其 缓冲 区 可 以 用 于 存储 连接 的 最 终结 果 。 一 般 说 来 ， 以 一 趟 连接 所 计算 出 的 连接 的 左 深 树 需要 
的 存储 空间 ， 是 用 来 存储 在 任何 时 候 都 存储 在 主 存 中 的 至 多 两 个 临时 关系 。 

现在 ， 考 虑 如 图 16-27(c) 中 右 深 树 的 实现 。 首 先 应 将 R 载 人 主 存 缓冲 区 ， 因 为 左 变 元 往往 是 
“构建 关系 "。 然 后 ， 构 建 Sm (To U) 并 将 其 用 于 根 连接 的 探 针 关 系 。 要 计算 sm (TU), RN 
需要 将 5 放 入 缓冲 区 ， 然 后 计算 出 Txa U 作 为 8 的 探 针 关系 。 但 是 Tx URE RIO TAB th 
区 。 现 在 ,内 存 中 间 时 有 了 R、S 和 7T。 一般 地 讲 。 如 果 我 们 试图 计算 一 个 有 n 个 叶 节 点 的 右 深 
连接 树 ， 我 们 必须 将 n - 1 个 关系 同时 读 人 内 存 。 


缓冲 区 管理 器 的 作用 

读者 也 许 注意 到 在 一 系列 例子 中 介绍 的 方法 有 一 个 不 同 点 , 例如 在 例 15.4 和 例 15.7 中 ， 
我 们 假设 一 个 连接 可 以 获得 的 主 存 疆 冲 区 的 个 数 有 固定 的 限 值 。 如 果 为 了 计算 更 加 灵活 ， 
则 假设 可 以 获得 足够 多 的 缓冲 区 满足 我 们 的 需要 ， 但 我 们 尽量 不 要 用 “ 太 多 ”缓冲 区 。 
回忆 一 下 15.7 节 我 们 知道 ， 缓 冲 区 管理 器 可 以 非常 灵活 地 为 操作 分 配 缓冲 区 。 然 而 ， 如 果 
一 次 分 配 太 多 的 缓冲 区 ， 就 会 使 所 用 算法 的 性 能 降低 。 









当然 ， 整 个 大 小 BCR)+BCS)+B( 了 D 可 能 会 小 于 我 们 在 对 左 深 树 进行 计算 的 任意 两 个 中 间 阶 段 
中 所 需 空 间 的 数目 ， 这 两 个 数目 分 别 为 B(R)+B(Rea SBR S)+ BRA S) TNs RENE, 
正如 在 例 16.30 中 指出 的 ， 几 个 连接 的 查询 常常 会 有 一 个 小 的 关系 ， 我 们 可 以 在 一 个 左 深 树 中 ， 
首先 以 该 关系 作为 最 左边 的 变 元 。 如 果 R 是 小 的 ， 我 们 可 以 预期 Roa 5 远 小 于 5 以 及 (Rm Syo T 
小 于 T， 从 而 更 加 证 实 了 左 深 树 的 作用 。 口 


例 16.32 ”现在 ， 假 设 我 们 要 通过 嵌 套 循环 连接 来 实现 如 图 16-27 所 示 的 四 路 连接 ， 并 且 对 
所 涉及 的 三 个 连接 中 的 每 一 个 都 使 用 一 个 迭代 器 ( 参见 15.1.6 节 )。 另 外 ， 为 简便 起 见 ， 假 设 
关系 R、S、7T 和 U 都 是 已 存储 的 关系 而 不 是 表达 式 。 如 果 我 们 采用 如 图 16-27(a) 所 示 的 左 深 树 ， 
则 在 树 根 的 循环 会 获得 左 变 元 (Re S) 7 这 样 大 小 的 主 存 块 。 它 会 将 该 块 和 全 部 U 进 行 连接 ， 
只 要 U 是 已 存储 的 关系 。 它 只 需要 对 上 进行 扫描 ， 而 不 必 构 建 它 。 一 旦 获得 左 变 元 的 下 一 块 ， 
并 将 其 放 人 内 存 ， 就 可 以 再 次 对 0 进行 读 操作 ， 但 是 如 果 两 边 的 变 元 都 是 大 的 ， 嵌 套 循 环 连接 
就 不 可 避免 地 需要 反复 进行 
同样 ， 为 了 获得 (Rea 9)e 7 的 块 ， 我 们 将 Rea 5 的 块 放 人 内 存 并 对 7 渤 行 扫描 。 对 行内 次 
扫描 最 终 也 许 是 必要 的 ， 而 且 也 不 可 能 避免 。 最 后 ， 要 获得 Rm 5 的 块 需要 读 人 RR 的 块 并 将 它 
进行 比较 ， 也 许 要 进行 几 次 。 尽 管 如 此 ， 在 所 有 这 些 过 程 中 ， 只 有 已 存 情 的 关系 要 站 人 内 关 、 
当主 存 不 足以 保留 整个 关系 时 ， 这 种 反复 读 信 会 使 得 谋 套 循环 连接 的 工作 方式 出 现 人 为 的 痕迹 。 
现在 ， 将 左 深 树 的 循环 行为 与 如 图 16-27(c) 所 示 的 右 深 树 的 循环 行为 进行 比较 。 树 根 的 循 
环 以 读 人 R 的 块 作为 开始 。 然 后 它 必须 构建 整个 关系 8pa (Tea U)， 并 将 其 与 R 进 行 比较 。 当 我 们 


O 注意 在 计算 代价 时 我 们 通常 不 考虑 表达 式 的 存储 代价 。 
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将 下 一 个 R 的 块 恋人 内 存 时 ， 必 须 再 次 构建 yza (Tos UV)。 后 续 的 每 一 个 R 的 块 同样 需要 构建 这 同 
一 关系 。 

当然 ,我们 可 以 一 次 构建 $m(Tm U)， 并 将 其 存储 在 内 存 或 磁盘 上 。 如 朵 将 其 存储 在 磁盘 ， 
与 左 深 树 计 划 相 比 ， 我 们 就 要 使 用 额外 的 磁盘 IO ; 如 果 存 储 在 内 存 ， 我 们 就 会 遇 到 曾 在 例 
16.31 中 讨论 的 关于 过 度 使 用 内 存 的 问题 。 口 


16.6.4 通过 动态 规划 来 选择 连接 顺序 和 分 组 

要 为 许多 关系 选择 连接 顺序 ， 我 们 有 以 下 三 个 选择 : 

1. 考虑 全 部 。 

2. 考虑 一 个 子 集 。 

3. 采用 启发 式 选 取 一 个 。 

在 这 里 我 们 应 该 考虑 一 个 称 为 动态 规划 的 方法 来 进行 枚 举 。 它 可 以 用 于 或 者 考虑 所 有 顺序 ， 
或 者 只 考虑 特定 子 集 ， 例 如 限制 于 左 深 树 的 顺序 。 在 16.6.6 节 我 们 为 选择 一 个 单一 的 顺序 考虑 
一 个 合理 的 启发 式 。 动 态 规划 是 一 种 通用 算法 范例 9 。 动 态 规划 的 思想 是 ; 我 们 对 一 个 代价 表 
进行 填充 ， 只 记 住 我 们 推出 结论 所 需 的 最 少 的 信息 。 

假设 我 们 想 对 Ri pa R …m R, 进 行 连接 。 在 一 个 动态 规划 算法 中 ， 我 们 为 包含 a 个 关系 中 
的 一 个 或 多 个 关系 的 每 一 个 子 集 构建 带 有 一 个 人 口 的 表 。 在 这 个 表 中 我 们 将 记录 : 

1. 这 些 关系 的 连接 的 估计 值 。 我 们 可 以 利用 16.4.6 节 中 介绍 的 公式 。 

2. 计算 这 些 关 系 的 连接 的 最 小 代价 。 在 我 们 的 例子 中 将 使 用 中 间 关 系 大 小 的 和 (不 包括 RR 
本 身 或 与 该 表 入 口 相 关 的 所 有 关系 集合 的 连接 )。 回 想 一 下 ， 中 间 关 系 大 小 是 我 们 可 以 用 来 估 
计 磁 盘 WO、CPU 的 利用 率 或 者 其 他 因素 的 实际 代价 的 最 简单 的 量度 。 不 过 ， 如 果 我 们 愿意 并 
且 可 以 进行 额外 的 计算 ， 则 可 以 使 用 其 他 复杂 的 估计 ， 比 如 所 有 磁盘 的 MO。 如 果 使 用 磁盘 的 
IO 或 另 一 个 关于 运行 时 间 的 量度 ， 则 必须 考虑 连接 所 用 的 算法 ， 因 为 不 同 的 算法 会 有 不 同 的 
代价 。 在 已 经 掌握 基本 的 动态 规划 技术 后 我 们 将 讨论 这 些 问题 。 

3. 给 出 最 小 代价 的 表达 式 。 这 个 表达 式 对 有 待 求解 的 关系 集合 进行 分 组 连接 。 我 们 可 以 选 
择 性 地 只 考虑 左 深 表达 式 ， 在 这 种 情况 下 表达 式 仅 仅 是 关系 的 顺序 。 

这 个 表 的 构建 是 一 个 关于 子 集 大 小 的 归纳 。 有 两 个 变量 ， 依 赖 于 我 们 是 希望 考虑 所 有 可 能 
的 树 的 形状 还 是 只 考虑 左 深 树 。 构 建 表 的 方法 有 所 不 同 ， 当 我 们 在 下 面 讨论 表 构 建 的 归纳 步 又 
时 会 对 这 个 不 同 进行 解释 。 

基础 : 一 个 单一 关系 R 的 人 口 包括 R 的 大 小 、 值 为 0 的 代价 以 及 R 本 身 的 表达 式 。 一 对 关系 
{Ri ，BRi } 的 入 口 也 容易 计算 。 代 价 为 0， 是 因为 没有 涉及 到 中 间 关 系 ， 并 且 估 计 值 由 16.4.6 节 中 
介绍 的 规则 给 出 ; 如果 代 价 不 为 0， 则 它 的 值 为 Ri 与 R 的 乘积 再 除 以 R 与 尺 共享 的 属性 的 较 大 的 
值 集 大 小 。 表 达 式 要 么 是 Ri xR, BARR ma Ri。 按 照 在 16.6.1 节 中 介绍 过 的 思想 ， 我 们 挑选 
R 与 RR 中 较 小 的 一 个 作为 左 变 元 。 

归纳 : 现在 ,我 们 可 以 建立 表 ， 并 为 大 小 是 3、4 等 的 所 有 子 集 计算 人 口 ， 直 到 我 们 获得 大 
小 为 n 的 子 集 的 入 口 。 这 个 人 口 告诉 我 们 对 所 有 关系 的 连接 进行 计算 的 最 佳 方 法 ， 它 还 告诉 我 
们 这 个 方法 的 估计 代价 ， 该 值 在 计算 以 后 的 入 口 时 会 要 用 到 。 我 们 需要 明白 如 何 计 算 有 k 个 关 
RER KAO, 


o 动态 规划 的 一 般 处 理 请 参阅 :， Aho, Hopcroft 和 Ullman 写 的 《Data Structures and Algorithms ) (Addison-Wesley 
出 版 社 1984 年 出 版 )。 


如 果 希 望 只 考虑 左 深 树 ， 那 么 对 及 中 的 k 个 关系 R 的 每 一 个 ， 通 过 首先 计算 及 - {R} 的 连接 
并 将 它 与 再 进行 连接 来 考虑 我 们 对 叉 进行 连接 计算 的 可 能 。 对 驴 进行 连接 计算 的 代价 等 
FR - {R} 的 代价 加 上 后 一 个 连接 。 我 们 选取 能 生成 最 小 代价 的 R。 当 叉 - {R} 作 为 最 终 连接 
的 左 变 元 ， 而 R 作 为 右 变 元 时 ， 对 及 的 表达 式 也 就 是 对 及 - {R} 的 最 佳 连接 表达 式 。16.4.6 节 
中 的 公式 将 给 出 尺 的 大 小 。 

如 果 我 们 希望 考虑 所 有 的 树 ， 则 关系 集合 及 的 入 口 的 计算 会 变 得 复杂 。 我 们 需要 考虑 所 
有 的 将 及 分解 成 不 相连 接 的 集合 及 A Re 的 方法 。 对 每 一 个 这 样 的 子 集 ， 考 虑 以 下 两 项 的 和 : 

1. 及 1 和 R2 的 最 佳 代 价 。 

2. 及 1 和 RR2 的 大 小 。 

对 给 出 最 佳 代 价 的 划分 ， 我 们 利用 这 个 和 值 作为 也 的 代价 ,并且 及 的 表达 式 是 及 FIR ,的 最 
佳 连接 顺序 的 连接 。 

例 16.33 考虑 四 个 关系 R、S、7T 和 U 的 连接 。 为 了 简单 起 见 ， 我 们 假设 每 个 关系 有 1000 个 
元 组 。 它 们 的 属性 以 及 每 个 关系 中 属性 的 数值 区 间 的 估计 大 小 如 图 16-28 所 示 。 

对 于 单独 的 集合 ， 它 的 大 小 、 代 价 以 及 最 佳 计划 如 图 16-29 所 示 。 即 ， 对 每 一 个 单独 的 关 
系 ， 给 定 它们 的 大 小 为 1000， 代 价 为 0， 这 是 因为 它们 不 需要 间 关 系 ， 并 且 最 佳 ( 惟一 的 ) 表 
达 式 就 是 关系 本 身 。 

R(a,b) S(b,c) T (c,d) U(d,a) 
V(R, a) = 100 V(U, a) = 50 
V(R,b) = 200 V(S,b) = 100 


V(S,c) = 500 V(T,c) = 20 
V(T,d) =50 V(U,d) = 1000 


图 16-28 例 16.33 的 参数 





{R} | {5} | {T} | {VU} 
FN 1000 | 1000 | 1000 | 1000 
代价 Qo; 0 0 0 
最 佳 计划 R S T U 


图 16-29 单独 集合 的 表 


现在 ,考虑 关系 对 。 由 于 两 个 关系 的 连接 中 仍然 没有 中 间 关 系 ， 所 以 每 个 关系 的 代价 为 0。 
两 个 关系 中 的 任意 一 个 都 可 以 作为 左 变 元 ， 因 此 有 两 种 可 能 的 计划 ， 但 由 于 每 个 关系 偶然 会 相 
等 , 我 们 将 没有 根据 来 选择 哪 一 个 计划 。 在 每 一 种 情况 下 ,我 们 按照 字母 的 顺序 选择 在 前 面 的 。 
结果 关系 的 大 小 由 一 般 的 公式 算出 。 结 果 如 图 16-30 所 示 。 注 意 ，1M 代 表 1 000 000， 这 是 由 一 
个 乘积 得 到 的 连接 的 大 小 。 

| {R.S} | {R,T} | {R,U} | {S,T} | {5,U} | {7,0} 
天 不 5000|  IM| 1000| 2000| 1ıM| 1000 


代价 0 0 0 0 0 0 
最 佳 计划 RS | RaT | RaU | ST | ShU I TaU 


图 16-30 关系 对 的 表 


现在 ， 考 虑 四 个 关系 中 的 三 个 关系 的 连接 的 表 。 计 算 三 个 关系 的 一 个 连接 的 惟一 方法 是 首 
先 选 择 两 个 进行 连接 。 结 果 的 估计 大 小 由 标准 公式 计算 出 ， 在 此 我 们 省 略 计算 的 细节 ; 记 住 ， 
不 管用 什么 方法 计算 连接 ， 我 们 都 会 得 到 同样 的 大 小 。 

关系 的 每 个 三 元 组 的 代价 估计 等 于 一 个 中 间 关 系 的 大 小 -一 这 个 中 间 关 系 是 最 先 选 择 的 两 
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个 关系 的 连接 。 由 于 我 们 希望 这 个 代价 尽 可 能 小 ， 因 此 考虑 三 个 关系 中 的 每 一 对 并 且 提 取 最 小 
的 一 对 。 

对 于 表达 式 ， 我 们 首先 将 被 选中 的 两 个 关系 组 成 一 组 ， 但 是 这 些 可 以 是 左 变 元 或 者 右 变 元 。 
假设 我 们 只 对 左 深 树 感 兴趣 ， 则 我 们 常常 利用 最 先 的 两 个 关系 的 连接 作为 左 变 元 。 由 于 在 所 有 
的 情况 下 四 个 关系 中 的 两 个 的 连接 的 估计 大 小 至 少 为 1000 ( 相当 于 每 单个 关系 的 大 小 )， 如 果 
允许 非 左 深 树 的 话 ， 我 们 常常 会 选择 一 个 关系 作为 这 个 例子 中 的 左 变 元 。 三 个 关系 为 一 组 的 汇 
总 表 如 图 16-31 所 示 。 

让 我 们 考虑 {R,S, 了 作为 计算 的 例子 。 我 们 必须 依次 考虑 三 对 中 的 每 一 对 。 如 果 我 们 以 Rx 
5S 开 始 ， 则 代价 就 是 这 个 关系 的 大 小 ， 即 5000， 这 可 以 从 如 图 16-30 所 示 的 一 对 关系 的 表 中 得 知 。 
以 Rea T 开 始 使 得 中 间 关 系 的 代价 为 1 000 000, LAS T 开 始 则 代价 为 2000。 由 于 后 者 是 三 个 选 
择 中 最 小 的 ， 我 们 选择 了 这 个 计划 。 该 选择 不 仅 反 映 在 {R,S,T} 列 的 代价 人口 中， 也 反映 在 最 
佳 计划 行 ， 在 这 一 行 中 ,将 S 和 7 组 成 一 组 的 计划 首先 出 现 。 


{R, S,T} {R, S,U} {R,T,U} {S,T,U} 
E 10 000 50 000 10 000 2 000 
(R ( 





5 000 1 000 1 000 
w S) U | (T U) R | (T o U) w 5 








A a (S pa n, ) pa oR 
图 16-31 三 个 关系 为 一 组 表 


现在 ， 我 们 必须 考虑 全 部 四 个 关系 连接 的 情况 。 这 个 关系 的 大 小 估计 值 为 100 个 元 组 ， 因 
此 真正 的 代价 从 本 质 上 说 是 全 部 位 于 中 间 关 系 的 构建 。 然 而 ， 回 忆 一 下 ， 当 比较 计划 时 我 们 从 
不 考虑 结果 的 代价 。 

有 两 种 通用 的 方法 我 们 可 以 计算 全 部 四 个 关系 的 连接 : 

1. 以 可 能 的 最 佳 方法 选择 三 个 进行 连接 ， 然 后 与 第 四 个 连接 。 

2. 将 四 个 关系 划分 为 两 对 ， 将 每 一 对 进行 连接 ， 再 将 两 个 结果 行 连接 。 

当然 ， 如 果 我 们 只 考虑 左 深 树 ， 则 第 二 种 计划 被 排除 ， 因 为 它 会 生成 紧密 树 。 如 图 16-32 
所 示 的 表 在 如 图 16-30 和 图 16-31 中 的 成 组 方法 的 基础 上 总 结 了 7 种 可 能 的 成 组 连接 的 方法 。 

例如 ， 考 虑 如 图 16-32 所 示 的 第 一 个 公式 。 它 表示 首先 将 R、S 和 7 进行 连接 ， 再 将 所 得 结果 
与 U0 进行 连 接 。 从 图 16-31 我 们 知道 ， 将 R、S 和 7 渤 行 连接 的 最 佳 方法 是 先 将 S 和 7 进行 连接 。 我 
们 曾经 利用 这 个 表达 式 的 左 深 形式 ， 并 在 右边 连接 0 以 分 组 代价 
继续 使 用 左 深 形 式 。 如 果 我 们 只 考虑 左 深 树 ， 则 这 个 表 ((S aT) oa R) aU [12 000 


((RoaS)paU)paT | 55000 





达 式 以 及 关系 顺序 就 是 惟一 的 选择 。 如 果 人 允许 紧密 树 ， ((TraU) ea R)oaS | 11000 
则 我 们 要 在 左边 连接 U， 因 为 它 将 小 于 其 他 三 种 的 连接 。 eR | 3000 
该 连接 的 代价 为 12 000， 等 于 代价 值 加 上 (Sm Dm R 的 (Roa T) oa (S$ paU) | 2 000 000 
大 小 ， 它们 分 别 为 2000 和 10 000, (S va T) ba (Ra U) 12 000 


图 16-32 中 的 最 后 三 个 表达 式 表示 如 果 我 们 包含 紧密 。 图 16-32 成 组 连接 以 及 它们 的 代价 
树 时 的 额外 选择 。 这 些 表达 式 首先 是 由 两 对 关系 的 连接 组 成 。 例 如 ， 最 后 一 行 表示 首先 对 Rea UA 
Sm 7 进行 连接 ， 然 后 再 将 两 个 结果 进行 连接 。 该 表达 式 的 代价 等 于 两 对 关系 的 大 小 与 代价 之 和 。 
任意 一 对 的 代价 都 为 0， 这 是 必然 的 ， 它 们 的 大 小 分 别 为 10 000 和 2000。 由 于 我 们 通常 选择 较 小 的 
关系 作为 左 变 元 ， 故 我 们 的 表达 式 为 (Sa Dm (Roa U). 

在 这 个 例子 中 我 们 看 到 ， 所 有 代价 中 的 最 小 值 与 第 四 个 表达 式 ((Tea U) S) R 相 关 。 我 
们 选择 该 表达 式 来 计算 连接 ; 它 的 代价 为 3000。 不 管 我 们 的 动态 规划 策略 是 否 考虑 所 有 的 计划 


或 者 仅 考虑 左 深 计 划 ， 由 于 它 是 左 深 树 ， 它 就 是 被 选择 的 逻辑 查询 计划 。 口 


16.6.5 带 有 更 具体 的 代价 函数 的 动态 规划 法 

利用 关系 的 大 小 作为 代价 的 估计 可 以 简化 动态 规划 算法 。 然 而 ， 这 个 简化 将 会 带 来 一 个 缺 
点 ， 就 是 它 在 计算 中 没有 考虑 连接 的 实际 代价 。 举 一 个 极端 的 例子 ， 如 果 有 一 个 可 能 的 连接 
R(a,b) > Stb,c) 包 括 一 个 带 有 一 个 元 组 的 关系 R 和 另 一 个 带 有 连接 属性 b 的 索引 的 关系 5S 连接 ， 则 
该 连接 几乎 不 花费 任何 时 间 。 另 一 方面 ， 如 果 $ 没 有 索引 ， 则 我 们 必须 对 它 进 行 扫描 ， 即 使 R 是 
一 个 单一 的 关系 ， 这 也 会 花费 B(5) 次 磁盘 IJO。 只 考虑 R、5 以 及 Rm 8 的 代价 度量 不 可 能 区 分 这 
两 种 情况 ， 所 以 在 组 中 利用 Rea 5 的 代价 要 么 会 估计 过 高 ， 要 么 会 被 估计 不 足 。 

然而 ， 对 动态 规划 算法 进行 修改 以 将 连接 算法 考虑 进去 是 不 难 的 。 首 先 ， 用 磁盘 1/O 作 为 
我 们 所 采用 的 代价 度量 ， 或 者 我 们 更 愿意 用 的 任何 运行 时 间 单 元 。 计 算 尽 ; ma Ro 的 代价 时 ， 
我 们 将 Ri; 的 代价 、RR2 的 代价 以 及 利用 可 获得 的 最 佳 算法 对 这 两 个 关系 进行 连接 所 需 的 最 小 代 
价 相 如 。 由 于 后 一 个 代价 一 般 依赖 于 及 1 和 Ra 的 大 小 ， 我 们 还 必须 计算 这 些 大 小 的 佑 计 值 ， 正 
如 我 们 在 例 16.33 中 所 做 的 那样 。 

动态 规划 的 一 个 功能 更 强大 的 版 本 是 基于 在 16.5.4 节 中 所 提 到 的 Selinger 风 格 优化 。 现 在 ， 
对 每 一 个 可 能 被 连接 的 关系 集合 ， 我 们 保持 的 不 只 是 一 个 代价 ， 而 是 几 个 代价 。Selinger 风 格 
优化 不 仅 考 虑 算出 连接 结果 的 最 小 代价 ， 还 考虑 生成 按 几 个 “ 感 兴趣 ”的 顺序 中 的 任意 一 个 排 
序 的 关系 的 最 小 代价 。 这 些 感 兴趣 的 顺序 包括 任何 对 以 后 的 排序 连接 有 利 或 者 能 够 生成 以 用 户 
所 期 望 的 序列 的 全 部 查询 的 输出 的 顺序 。 当 必须 生成 排序 的 关系 时 ， 必 须 考虑 选择 排序 连接 ， 
使 用 一 趟 的 或 者 多 趟 的 ， 而 当 不 考虑 将 一 个 结果 进行 排序 的 价值 时 ， 散 列 连 接 至 少 常常 与 相应 
的 排序 连接 一 样 好 。 
16.6.6 选择 连接 顺序 的 食 林 算法 

如 例 16.33 所 建议 的 ， 即 使 是 动态 规划 的 仔细 限定 范围 的 搜索 也 会 导致 计算 量 与 被 连接 的 
关系 数 成 指数 关系 。 采 用 像 动 态 规划 或 者 分 枝 界定 搜索 这 样 的 方法 来 寻找 五 个 或 六 个 关系 的 最 
佳 连接 顺序 ， 是 合理 的 。 然 而 ， 当 连接 数 超过 范围 ， 或 者 如 果 我 们 选择 不 想 在 搜索 中 花费 必需 
的 时 间 ， 则 我 们 可 以 在 查询 优化 中 采用 连接 顺序 试探 。 

试探 的 最 普遍 的 选择 是 贪 禁 算法 ， 在 这 个 算法 中 ,我 们 一 次 为 连接 的 顺序 做 一 个 决定 ， 并 
且 从 不 返回 , 或 者 说 一 旦 做 出 决定 便 不 再 重新 考虑 。 我 们 将 考虑 只 选择 左 深 树 的 贪 禁 算法 。 
“ 贪 禁 ”是 基于 这 样 的 思想 一 希望 在 树 的 每 一 级 保持 尽 可 能 少 的 中 间 关 系 。 


连接 的 选择 率 . 
-AEA Hehi AARE OPERA RRRA RAAR ARS S 
前 树 进 行 连接 时 有 一 个 选择 率 ， 它 是 以 下 的 比率 
连接 结果 的 大 小 
当前 树 结果 的 大 小 


由 于 我 们 经 常 不 能 获得 任意 关系 的 确切 大 小 ， 因 此 就 像 以 前 所 做 的 来 估计 这 些 大 小 
值 。 一 个 连接 顺序 的 贪 材 算 法 将 选取 有 着 最 小 选择 率 的 那个 关 系 。 

例如 ， 如 果 一 个 连接 属性 是 R 的 一 个 关键 字 ， 则 选择 率 几乎 为 1， 这 常常 是 有 利 的 情 
况 。 注 意 ， 从 如 图 16-28 的 统计 可 以 判断 ， 属 性 d 是 U 的 一 个 关键 字 ， 并 且 其 他 关系 没有 
关键 字 ， 这 表明 了 为 什么 将 T 和 UU 先行 连接 是 启动 连接 的 最 好 方式 。 
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基础 : 以 估计 连接 大 小 是 最 小 的 关系 对 开始 。 这 些 关系 的 连接 成 为 当前 树 。 

BA: 在 所 有 还 没有 包含 在 当前 树 中 的 关系 中 ， 寻 找 与 当前 树 进行 连接 能 生成 估计 大 小 最 
小 的 关系 。 以 旧 的 当前 树 作为 左 变 元 ， 被 选中 的 关系 作为 右 变 元 来 形成 新 的 当前 树 。 

例 16.34 ”将 贪 焚 算法 应 用 于 例 16.33 中 的 关系 。 基 本 的 步骤 是 找 出 连接 最 小 的 一 对 关系 。 
考虑 图 16-30， 可 以 看 出 是 连接 Tea 7， 其 代价 为 1000。 因 此 ，Tea U 是 “当前 树 ”。 

现在 考虑 下 一 步 是 否 将 R 和 5 连接 进入 树 。 我 们 比较 (Tx UU) mR 和 (Tm U)m 5 的 大 小 。 图 
16-31 告 诉 我 们 后 者 的 大 小 为 2000， 好 于 前 者 ， 其 代价 为 10 000。 因 此 ， 我 们 将 (Tm U) pa 5 作为 
当前 树 。 

现在 没有 选择 了 ; 我 们 必须 在 最 后 一 步 连接 R， 这 将 使 得 总 的 代价 为 3000， 相 当 于 两 个 中 
间 关 系 大 小 的 和 。 注 意 ， 由 贪 禁 算法 得 到 的 树 和 在 例 16.33 中 用 动态 规划 算法 所 得 到 的 树 是 相 
同 的。 然而 ， 也 有 贪 楚 算 法 寻找 最 佳 结 果 失 败 的 例子 ， 而 动态 规划 算法 能 保证 找到 最 佳 结果 ; 
参看 习题 16.6.4。 
16.6.7 习题 
习题 16.6.1 对 习题 16.4.1 中 的 关系 ,给 出 评价 以 下 所 有 可 能 的 连接 顺序 的 动态 规划 表 入 口 : 

a) 只 有 左 深 树 。 

b) 所 有 树 。 
在 每 一 种 情况 下 什么 是 最 佳 选 择 ? 
习题 16.6.2 除了 以 下 的 修改 ， 其 他 与 习题 16.6.1 相 同 ， 

a) Z 的 计划 改 为 Z(d,a)。 

b) V(Z,a)=100. 
习题 16.6.3 用 习题 16.4.2 中 的 关系 重复 习题 16.6.1。 
习题 16.6.4 考虑 关系 R(a,b)、5(b,c)、Tlc,d) 以 及 U(a,d) 的 连接 , 其 中 R 和 U 都 有 1000 个 元 组 ， 
而 $ 和 7 有 100 个 元 组 。 另 外 ， 对 于 属性 c， 有 V(S,c)=Y(Tc)=10， 除 此 之 外 ， 所 有 关系 的 所 
有 属性 都 有 100 个 值 。 

a) 用 贪 禁 算 法 选择 什么 样 的 顺序 ? 其 代价 是 多 少 ? 

b) 什么 是 最 佳 连接 顺序 ? 其 代价 是 多 少 ? 
习题 16.6.5 对 以 下 连接 有 多 少 棵 树 : 

* a) 七 个 关系 。 

b) 八 个 关系 。 
既 不 是 左 深 树 也 不 是 右 深 树 的 有 多 少 ? 
习题 16.6.6 ”假设 我 们 希望 对 在 如 图 16-27 所 示 的 一 个 树 结 构 中 的 关系 R、 $5、7 以 及 U 进 行 
连接 ， 并 且 和 希望 在 内 存 中 保存 所 有 的 中 间 关 系 ， 直 到 不 再 需要 它们 为 止 。 按 照 我 们 通常 的 
假设 ， 所 有 四 个 关系 的 连接 的 结果 将 会 被 产生 这 个 结果 的 其 他 过 程 冲 掉 ， 因 此 那个 关系 不 
需要 内 存 。 依 据 被 存储 关系 以 及 中 间 关 系 (例如 B(R) 或 者 B(R ea 5)) 所 需 的 块 数 ， 为 以 下 的 树 
给 出 所 需 内 存 的 块 数 M 的 一 个 下 限 : 

* a) 如 图 16-27(a) 中 的 左 深 树 。 

b) 如 图 16-27(b) 中 的 紧密 树 。 

c) 如 图 16-27(c) 中 的 右 深 树 。 
什么 样 的 假设 使 我 们 得 出 这 样 的 结论 : 一 棵 树 一 定 比 另 一 棵 树 使 用 较 少 的 内 存 ? 
“1 习题 16.6.7 如 果 利 用 动态 规划 来 对 k 个 关系 的 连接 选择 顺序 ， 我 们 必须 填充 多 少 个 表 的 人 


* 


O? 
16.7 物理 查询 计划 选择 的 完成 


我 们 已 经 分 析 了 查询 ， 将 它 转化 为 初步 的 逻辑 查询 计划 ， 并 采用 16.3 节 中 描述 的 变换 来 提 
高 那个 逻辑 查询 计划 的 性 能 。 选 择 物理 查询 计划 过 程 中 的 一 部 分 是 我 们 在 16.5 节 中 所 讨论 到 的 
所 有 选项 的 枚 举 和 代价 估计 。16.6 节 着 眼 于 枚 举 问 题 、 代 价 估计 以 及 为 几 个 关系 的 连接 排序 。 
经 扩展 ， 我 们 可 以 利用 同样 的 技术 为 多 个 并 、 交 或 它们 的 任意 结合 /交换 操作 进行 排序 。 

要 将 逻辑 计划 变 成 一 个 完整 的 物理 查询 计划 仍 需 要 几 个 步 又。 我 们 在 本 节 还 必须 包括 的 几 
个 主要 问题 为 : 

1. 当 算 法 选择 没有 作为 某 个 开始 步骤 (如 通过 动态 规划 选择 连接 顺序 ) 的 一 部 分 来 执行 时 ， 
实现 查询 计划 操作 的 算法 选择 。 

2. 关于 何 时 中 间 结 果 将 会 被 实体 化 〔 被 整个 创建 并 被 存储 在 磁盘 上 ) 以 及 何 时 它们 将 会 被 
流水 线 操作 ( 只 在 主 存 中 被 创建 ， 并 且 任何 时 候 不 需要 被 完整 地 保存 ) 的 决定 。 

3. 物理 查询 计划 操作 符 的 注释 ， 它 必须 包括 有 关 被 存储 关系 的 访问 方法 的 细节 以 及 相关 代 
数 操作 的 执行 算法 的 细节 。 

我 们 不 讨论 全 部 操作 符 的 算法 选择 。 只 选择 性 地 讨论 最 重要 的 两 个 操作 符 : 15.7.1 节 中 的 
选择 以 及 16.7.2 节 中 的 连接 。 然 后 ， 我 们 在 16.7.3 节 到 16.7.5 节 中 将 考虑 流水 线 操作 和 物化 的 选 
择 。16.7.6 节 将 给 出 物理 查询 计划 的 注释 。 

16.7.1 选取 选择 方法 

选取 一 个 物理 查询 计划 最 重要 的 步骤 之 一 是 为 每 个 选择 操作 符 精 选 算法 。 在 15.2.1 节 中 我 
们 提 到 ce(R) 操 作 的 执行 ， 在 这 个 操作 中 我 们 访问 完整 的 关系 R， 并 且 看 哪 一 个 元 组 满足 条 件 C。 
然后 在 15.6.2 节 中 我 们 考虑 了 C 是 形式 “属性 等 于 常数 ”的 概率 ， 并 且 对 那个 属性 我 们 有 一 个 
索引 。 如 果 是 这 样 的 话 ， 我 们 可 以 找 出 满足 条 件 C 的 元 组 ， 而 不 必 查 看 R 的 全 部 。 现 在 ， 让 我 
们 考虑 这 个 问题 的 广义 性 ， 即 我 们 有 一 个 选择 条 件 ， 它 是 几 个 条 件 的 AND， 其 中 一 些 条 件 是 
“属性 等 于 常数 ”的 形式 或 者 是 属性 与 常数 之 间 的 另外 的 比较 ， 如 <。 

假设 对 几 个 属性 并 没有 多 维 索 引 ， 则 每 个 物理 计划 必须 使 用 满足 下 列 条 件 的 一 个 或 多 个 属性 : 

a) 有 一 个 索引 ; 并 且 

b) 与 选择 项 之 一 的 一 个 常量 相 比 较 。 

然后 我 们 利用 这 些 索引 来 识别 满足 每 一 个 条 件 的 元 组 集 。13.2.3 节 和 14.1.5 节 讨论 了 在 将 元 
组 从 磁盘 读 出 之 前 ， 我 们 如 何 利用 通过 这 些 索引 得 到 的 元 组 指针 来 找 出 满足 所 有 条 件 的 元 组 。 

为 简便 起 见 ， 我 们 将 不 以 这 种 方式 来 考虑 利用 几 个 索引 。 我们 将 讨论 限制 在 以 下 的 算法 ; 

1. 利用 形式 46c 的 一 个 比较 ， 其 中 4 是 带 有 一 个 索引 的 一 个 属性 ，c 是 一 个 常量 ，6 是 一 个 
比较 操作 符 例如 “=” 或 者 “<”。 

2. 采用 在 15.1.1 节 中 讨论 的 索引 -扫描 物理 操作 ， 对 所 有 满足 (1) 中 的 比较 的 元 组 进行 搜索 。 

3. 考虑 在 (2) 中 所 选中 的 每 个 元 组 ， 看 它 是 否 满足 剩 下 的 选择 条 件 。 我 们 称 执行 这 一 步 的 
物理 操作 符 为 Fi1ter。 它 将 用 来 选择 元 组 的 条 件 作为 一 个 参数 ， 很 像 相关 代 数学 的 co 操作 符 
所 做 的 那样 。 

除了 这 种 形式 的 算法 ， 我 们 还 必须 考虑 一 个 算法 ， 该 算法 没有 利用 任何 索引 ， 但 它 读 取 全 
部 关系 (采用 表 - 扫 描 物 理 操 作 符 ) 并 且 将 每 个 元 组 传递 给 Filter 操 作 符 来 检查 选择 条 件 是 否 
满足 。 
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我 们 通过 估计 读 取 每 一 个 可 能 的 选项 的 数据 的 代价 ， 从 诸多 算法 中 决定 用 哪 一 个 来 执行 给 
定 的 选择 。 为 了 比较 不 同 算法 的 代价 , 我 们 不 能 继续 使 用 经 过 简化 的 中 间 关 系 大 小 的 代价 估计 。 
原因 是 我 们 现在 正 考虑 逻辑 查询 计划 的 一 个 单一 步骤 的 执行 ,并且 中 间 关 系 与 执行 无 关 。 

因此 ， 我 们 将 再 次 计算 磁盘 IO ， 如 在 第 15 章 中 讨论 算法 及 其 代价 一 样 。 如 前 面 一 样 ， 为 
简便 起 见 ， 我 们 将 只 计算 访问 数据 块 的 代价 ， 而 不 考虑 索引 块 。 所 需 的 索引 块 的 数目 一 般 远 小 
于 所 需 的 数据 块 的 数目 ， 因 此 磁盘 IO 代价 的 这 个 近似 经 常 足 够 准确 。 

以 下 是 对 于 不 同 的 算法 所 估计 的 代价 大 小 的 概要 。 我 们 假设 操作 是 cc(R)， 其 中 条 件 C 是 一 
个 或 多 个 项 目的 AND。 我 们 利用 例子 中 的 项 目 a=10 和 b<20 来 分 别 表示 等 条 件 和 不 等 条 件 。 

1. 表 - 扫 描 算法 与 一 个 过 滤器 步 又 相 结 合 的 代价 是 : 

(a) MRRERE, Wi ABR); 
(b) MRR A BR HEM NR). 

2. 选 出 一 个 相等 项 如 a=10， 该 项 存在 关于 属性 a 的 一 个 索引 ， 并 且 利 用 索引 -扫描 来 找 出 匹配 

元 组 ， 然 后 将 被 检索 的 元 组 进行 过 滤 来 看 它们 是 否 满足 全 部 条 件 C， 这 样 的 一 个 算法 的 代价 是 ; 
(a) 如 果 索 引 是 聚 簇 的 ， 则 为 BCR)VCR,a); 
(b) MRS AA RE , MX TR)/VR,a). 

3. 选 出 一 个 不 等 项 如 p<20， 该 项 存在 关于 属性 5 的 一 个 索引 ， 并 且 利 用 索引 -扫描 来 搜索 匹配 

元 组 ， 然 后 将 被 检索 的 元 组 进行 过 滤 来 看 它们 是 否 满 足 全 部 条 件 C， 这 样 的 一 个 算法 的 代价 是 ; 
(a) 如 果 索 引 是 聚 簇 的 ， 则 为 BCR)/38 ; 
(b) 如 果 索 引 不 是 聚 侯 的 ， 则 为 FLR)/3。 

例 16.35 考虑 选择 Gi ono rz am is(R)， 其 中 R(x,y,z) 有 以 下 的 变 元 ，T(R)=5000、B(R)=200、 
V(R,x)=100 以 及 V(R,y)=500。 另 外 ， 假 设 R 是 聚 徐 的 ， 并 且 所 有 的 x、y 以 及 z 上 都 有 索引 ,但 只 
有 z 的 索引 是 聚 簇 的 。 以 下 是 执行 这 个 选择 的 选项 : 

1. 表 - 扫 描 后 进行 过 滤 。 其 代价 为 BCR)， 或 者 是 200 次 磁盘 IO ， 因 为 R 是 聚 艇 的 。 

2. 使 用 x 的 索引 以 及 索引 -扫描 来 找 出 x=1 的 元 组 ， 然后 利用 Filter 操 作 符 来 检测 y=2 以 及 z<5。 
由 于 有 大 约 TR)/V(R,x)=50 个 元 组 的 x=1， 并 且 索 引 是 非 聚 针 的 ， 我 们 需要 大 约 50 次 1/O。 

3. 使 用 y 的 索引 以 及 索引 -扫描 来 找 出 y=2 的 元 组 ， 然 后 对 这 些 元 组 进行 过 滤 来 检测 x=1 以 及 
z<5。 使 用 这 个 非 京 簇 索引 的 代价 大 约 为 TRYVCR,y)， 即 10 次 磁盘 1/O。 

4. 使 用 z 的 索引 以 及 索引 -扫描 来 找 出 z<5 的 元 组 ， 然 后 对 这 些 元 组 进行 过 滤 来 检测 x=1 以 及 
y=2。 磁 盘 VO 数 大 约 为 B(R)/3=67。 

我 们 看 到 代价 最 小 的 算法 是 第 三 种 ， 估 计 代 价 为 10 次 磁盘 LO。 因 此 ， 这 个 选择 的 最 佳 物 
理 计划 搜索 所 有 y=2 的 元 组 ， 然 后 对 另外 两 个 条 件 进行 过 滤 。 口 
16.7.2 选取 连接 方法 

在 第 15 章 中 我 们 看 到 与 各 种 连接 算法 相 联 系 的 代价 。 假 设 我 们 知道 (或 者 可 以 估计 ) 执行 
连接 所 需 的 缓冲 区 的 容量 ， 则 我 们 可 以 对 排序 连接 使 用 15.4.8 节 中 的 公式 ， 对 散 列 连 接 使 用 
15.5.7 节 中 的 公式 ， 以 及 对 索引 连接 使 用 15.6.3 节 和 15.6.4 节 中 的 公式 。 

然而 ， 如 果 我 们 不 能 确定 ， 或 者 不 知道 执行 这 个 查询 所 需 的 缓冲 区 的 容量 〈 因为 我 们 不 知 
道 DBMS 同 时 在 做 什么 其 他 的 事情 ), 或 者 如 果 我 们 没有 重要 的 大 小 参数 ， 比 如 VCR,a) 的 估计 值 ， 


则 仍 有 一 些 重要 的 原则 使 我 们 可 以 用 来 选择 一 个 连接 方法 。 同 样 的 思想 适用 于 其 他 二 元 操作 例 


O 回想 一 下 ,我 们 假设 典型 的 不 等 式 仅 检索 1/3 的 元 组 ， 在 16.4.3 节 中 讨论 了 原因 。 
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如 并 ， 以 及 完全 关系 、 一 元 操作 符 、)》 和 6。 
"一 个 方法 是 调用 一 趟 连接 ， 和 希望 缓冲 区 管理 器 可 以 为 连接 分 配 足够 的 缓冲 区 ， 或 者 缓冲 
区 管理 器 可 以 关闭 ， 所 以 颠 艇 不 是 一 个 主要 的 代价 。 另 一 个 方法 ( 只 用 于 连接 ， 而 不 用 
于 其 他 二 元 操作 符 ) 是 选择 一 个 嵌 赛 循环 连接 ， 和 希望 如 果 不 能 保证 为 左 变 元 分 配 足够 的 
缓冲 区 立刻 装 和 内存， 则 变 元 将 不 会 被 分 解 成 太 多 的 片 ， 并 且 结 果 连 接 将 仍 是 合理 的 和 
有 效 的 。 
* 当 以 下 两 点 中 的 任意 一 点 成 立时 ， 一 个 排序 连接 就 是 一 个 好 的 选择 
1. 一 个 或 两 个 变 元 已 经 在 它们 的 连接 属性 上 排序 ; 或 者 
2. 对 于 同样 的 属性 有 两 个 或 多 个 连接 ， 例 如 
(R(a,b) o< S(a,c)) Ps Tla,d) 
其 中 在 a 上 对 R 和 3 进行 排序 将 会 引起 Rea 5 的 结果 在 a 上 被 排序 ， 并 且 在 第 二 个 排序 连 
接 中 被 直接 使 用 。 
“ 如果 有 一 个 索引 机 会 ， 例 如 一 个 连接 R(a,b)m 5(b,c)， 其 中 R 被 期 望 是 小 的 (也许 是 基于 
码 的 一 个 选择 ， 它 的 结果 是 一 个 元 组 )， 并 且 有 一 个 连接 属性 9. 的 索引 ， 则 我 们 应 该 选 
择 一 个 索引 连接 。 
* 如 果 没 有 机 会 利用 已 经 排序 的 关系 或 索引 ， 并 且 需 要 一 个 多 趟 连接 ， 则 散 列 连接 也 许 是 
最 佳 选择 ， 因 为 它 所 需要 的 扫描 次 数 取决 于 较 小 变 元 的 大 小 而 不 是 两 个 变 元 的 大 小 。 
16.7.3 流水 线 操作 与 实体 化 
我 们 将 讨论 与 物理 查询 计划 有 关 的 最 后 一 个 主要 的 话题 ， 即 结果 的 流水 线 操 作 。 执 行 一 个 
查询 计划 的 原始 方法 是 对 操作 进行 适当 的 排序 ( 即 直到 位 于 一 个 操作 下 面 的 变 元 已 经 被 执行 


内 存 中 的 实体 化 
可 以 想像 在 流水 性 操作 与 实体 化 之 间 有 一 个 中 间 方 法 ， 在 该 方法 中 ， 一 个 操作 的 整 
个 结果 在 被 传递 给 消费 操作 之 前 被 存储 在 主 存 缓冲 区 ( 不 是 磁盘 )。 我 们 视 操 作 的 这 种 可 


能 的 模式 为 流水 性 操作 ， 消 费 操 作 所 做 的 第 一 件 事情 是 在 内 存 中 对 整个 关系 或 者 关系 的 
大 部 分 进行 组 织 。 这 种 行为 的 一 个 例子 是 一 个 这 样 的 选择 ， 该 选择 的 结果 是 作为 左 变 元 
被 流水 线 操作 送 给 几 个 连接 算法 中 的 一 个 ， 包 括 简 单 的 一 越 连 接 、 多 趟 无 序 连 接 或 者 排 
序 连 接 。 


后 操作 才 被 执行 )， 并 且 将 每 个 操作 的 结果 存储 在 磁盘 上 ， 直 到 它 被 另 一 个 操作 所 需要 。 这 个 
策略 叫做 实体 化 〈《materialization )， 因 为 每 个 中 间 关 系 在 磁盘 上 被 实体 化 。 

执行 一 个 查询 计划 的 一 个 更 巧妙 、 更 有 效 的 方法 是 一 次 同时 进行 几 个 操作 。 由 一 个 操作 产 
生 的 元 组 直接 传递 给 使 用 它 的 操作 ， 不 需要 将 中 间 元 组 存储 在 磁盘 上 。 这 个 方法 叫做 流水 线 操 
作 ， 一 般 由 一 个 迁 代 器 网 络 (参见 15.1.6 节 ) 执行 ， 该 网 络 的 函数 在 适当 的 时 候 互 相 调 用 。 由 
于 它 节 省 了 磁盘 MO， 因此 流水 操作 有 一 个 明显 的 优点 ， 但 是 也 有 相应 的 缺点 。 由 于 任何 时 候 
几 个 操作 必须 共享 内 存 ， 就 有 可 能 必须 选择 有 更 高 磁盘 1/O 要 求 的 算法 ， 或 者 将 会 发 生 颠 复 ， 
从 而 用 掉 所 有 由 流水 操作 所 节省 的 磁盘 IO ， 甚 至 可 能 更 多 。 
16.7.4 一 元 流水 线 操作 

一 元 操作 一 选择 和 投影 一 一 是 流水 线 操 作 极 好 的 候选 对 象 。 由 于 这 些 操作 是 一 次 一 元 组 ， 
我 们 从 不 需要 有 多 个 块 的 输入 输出 。 图 15-5 给 出 了 这 种 操作 模式 。 
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我 们 可 以 通过 迁 代 器 来 执行 一 个 一 元 流水 线 操作 ， 正 消费 者 
如 15.1.6 节 中 所 讨论 的 。 每 次 需要 另 一 个 元 组 时 ， 流 水 线 
操作 结果 的 消费 者 就 调用 GetNextO。 在 一 个 投影 的 情况 
下 ， 只 需要 对 元 组 源 调用 GetNext0 一 次 ， 对 那个 元 组 进 
行 适当 的 投影 ， 并 将 结果 返回 给 消费 者 。 对 于 一 个 选择 cc 
( 从 技术 上 是 物理 操作 Filter(C) )， 也 许 需要 对 源 调用 sAN 
GetNext(0 若 干 次 ， 直 到 找到 一 个 满足 条 件 C 的 元 组 。 图 GetNext 
16-33 给 出 了 这 个 过 程 。 
16.7.5 二 元 流水 线 操作 、 

二 元 操作 的 结果 也 可 以 进行 流水 线 操作 。 我 们 使 用 一 图 1633 使 用 迭代 器 执行 一 个 
个 缓冲 区 将 结果 传递 给 消费 者 ， 一 次 一 块 。 然 而 ， 计 算 结 选择 的 流水 线 操作 
果 和 消费 结果 所 需 的 其 他 缓冲 区 数目 是 不 同 的 ， 它 们 取决 于 结果 的 大 小 以 及 查询 中 所 包含 的 其 
他 关系 的 大 小 。 我 们 将 使 用 一 个 扩展 的 例子 来 演示 权衡 和 契机 。 

例 16.36 考虑 下 列表 达 式 的 物理 查询 计划 


(R(w,x) o< S(x,y)) > U(y,2) 







GetNext 满足 的 C 元 组 





对 C 进 行 测试 


R 


假设 以 下 条 件 成 立 : 

1. RR 占用 5000 块 ，S 和 UU 各 占用 10 000 块 。 

2. SETA, PIZARRO 5 占用 k 块 。 根 据 R 和 5S 中 的 x 值 的 数目 以 及 (w,x,y) 元 组 与 R 的 
(w,x) 元 组 和 8 的 (x,y) 元 组 的 比值 的 大 小 ， 我 们 可 以 估计 出 k。 然 而 ,我 们 希望 知道 当 k 改 变 时 会 
发 生 什 么 ， 所 以 我 们 令 这 个 常数 也 可 以 变化 。 


3. 将 两 个 连接 作为 散 列 连 接 来 执行 ， 或 者 是 一 ~ 
趟 连接 或 者 是 两 趟 连接 ， 这 取决 于 及 一 个， 
4. 有 101 个 可 用 的 缓冲 区 。 这 个 数目 被 人 为 地 被 -一 vo.o0odk 
设 得 较 低 。 R(w, 2) S(z,y) 


图 16-34 是 带 有 关键 参数 的 表达 式 的 一 个 示意 图 。 

首先 ， 考 虑 连接 Rea S$。 在 主 存 中 没有 任何 关系 5 00088 10 0003% 
存在 ， 所 以 我 们 需要 一 个 两 趟 散 列 连接 。 为 了 将 较 图 16-34 例 16.36 的 逻辑 查询 计划 和 变 元 
小 关系 R 的 桶 限制 为 每 个 100 块 ， 我 们 至 少 需 要 50 个 
桶 ” 。 如 果 我 们 正好 使 用 50 个 桶 ， 则 散 列 连接 Rea $ 的 第 二 趟 将 使 用 51 个 桶 ， 其 中 的 50 个 桶 用 于 
Rm 5 的 结果 与 U 的 连接 。 

BLE, 假设 <49; 即 Rm 5 的 结果 最 多 占用 49 块 。 那 么 我 们 可 以 将 Roa 8 的 结果 流水 线 操作 
进入 49 个 缓冲 区 ， 将 它们 进行 组 织 以 便 作 为 一 个 散 列 表 来 查看 ， 并 且 利用 一 个 缓冲 区 来 依次 读 
入 U 的 每 一 块 。 我 们 可 以 将 第 二 趟 连接 作为 一 趟 连接 来 执行 。 磁 盘 IO 的 总 数 为 ; 

a) 45 000， 执 行 R 和 5 的 两 趟 散 列 连接 。 

b) 10 000, (Ro 5S)m 7 的 一 趟 散 列 连接 中 读 人 D7。 

总 共 为 55 000 次 磁盘 LO。 


O 按照 惯例 ， 我 们 假设 元 组 在 装 人 所 有 桶 时 ， 每 个 桶 都 正好 装 满 。 如 果 有 意外 ， 肯 定 会 有 ， 那 么 偶尔 需要 一些 
领 外 的 缓冲 区 ， 我 们 依靠 绥 冲 区 管理 器 通过 可 能 是 临时 移动 一 些 缓冲 区 到 磁盘 上 的 交换 空间 来 分 配 。 然 而 ， 
不 考虑 交换 的 磁盘 LO 的 额外 代价 ， 因 为 我 们 认为 这 些 代价 在 整个 代价 中 只 占 一 小 部 分 。 
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现在 ,假设 £>49, 但 是 <5000。 我 们 仍 可 以 将 Rm 5 的 结果 进行 流水 线 操作 ， 但 需要 使 用 
另 一 个 策略 ， 在 这 个 策略 中 ,该 关系 与 只 进行 一 个 50 个 桶 的 两 趟 散 列 连 接 。 

1. 在 开始 Rm 5 之 前 ， 我 们 将 U 装 进 每 个 200 块 的 50 个 桶 。 

2. 接 下 来 ， 像 前 面 一 样 用 51 个 桶 对 R 和 38 进行 一 个 两 赵 散 列 连接 ， 但 是 当 Rea 8 的 每 个 元 组 
产生 时 ， 我 们 将 它 放 人 用 于 形成 50 个 桶 来 将 Rea 8 和 17 进行 连接 的 50 个 剩余 缓冲 区 中 的 一 个 。 当 
这 些 缓冲 区 装 满 时 就 写 人 磁盘 ， 对 一 个 两 趟 散 列 连 接 来 说 ， 这 是 很 正常 的 。 

3. 最 后 ,我们 一 桶 一 桶 地 将 Rm SMURTE, HT k<5000, Roo 8 的 桶 的 大 小 最 多 为 
100 块 ， 因 此 这 个 连接 是 可 行 的 。U 的 桶 的 大 小 为 200 块 不 是 一 个 问题 ,因为 在 桶 的 一 趟 连接 中 ， 
我 们 正在 利用 Re S 的 桶 作为 建立 关系 ， 而 U 的 桶 作为 探 针 关 系 。 

这 个 流水 线 操 作 连 接 的 磁盘 UO 数 为 : 

a) 20 000， 用 于 读 取 UU 并 将 它 的 元 组 写 人 桶 。 

b) 45 000， 用 于 执行 Re 的 两 趟 散 列 连接 。 

c) 用 于 写 出 Rm 5 的 桶 。 

d) k+10 000 用 于 读 取 最 终 连接 中 的 Red SHUNT. 

全 部 代价 为 75 000+2k。 注 意 ， 当 k 从 49 增 长 到 50 时 有 明显 的 不 连续 性 ， 因 为 我 们 必须 将 最 终 连 
接 从 一 趟 改变 为 两 趟 。 在 实际 应 用 中 ， 该 代价 不 会 如 此 剧烈 地 变化 ， 因 为 即使 没有 足够 的 缓冲 
区 以 及 发 生 小 量 的 抖动 ， 我 们 也 可 以 使 用 一 趟 连接 。 


/的 范围 流水 线 或 物化 | at | 总 的 磁盘 IO 数 








图 16-35 作为 Req $S 大 小 的 函数 的 连接 算法 的 代价 


最 后 ， 让 我 们 考虑 当 k>5000 时 会 有 什么 情况 发 生 。 现在， 如果 Rm 8 的 结果 被 流水 线 操作 ， 
则 我 们 不 能 在 所 得 到 的 50 个 桶 中 执行 一 个 两 趟 连接 。 我 们 可 以 使 用 一 个 三 趟 连接 ， 但 是 那样 的 
话 ， 一 个 变 元 的 每 块 需要 额外 的 两 次 磁盘 IO ， 或 者 是 20 000+2k 个 更 多 的 磁盘 JO。 如 果 改 为 不 
对 Re 3 进行 流水 线 操作 ， 则 我 们 可 以 做 得 更 好 。 现 在 ， 连 接 计算 的 要 点 是 这 样 的 : 

1. 用 一 个 两 趟 散 列 连 接 计 算 Rm S, 并 且 将 结果 存储 在 磁盘 。 

2. 将 Rw S 和 UU 进行 连接 ,仍然 使 用 一 个 两 趟 散 列 连接 。 注 意 由 于 BCU)=10 000， 我 们 可 以 
用 100 个 桶 执行 一 个 两 趟 散 列 连接 ， 而 不 考虑 4 值 的 大 小 。 从 技术 上 说 ， 如 果 我 们 决定 将 U 作 为 
散 列 连接 的 建立 关系 ,那么 U 应 该 作为 其 在 图 16-34 中 的 连接 的 左 变 元 。 

这 个 算法 的 磁盘 IO 数 为 : 

a) 45 000 用 于 R 和 5$ 的 两 趟 连接 。 

b) KFA FHR os S 存 储 在 磁盘 上 。 

9) 30 000+3k 用 于 U 和 Rm 8 的 两 趟 散 列 连 接 。 

全 部 代价 为 75 000+4k， 它 要 小 于 在 最 后 一 步 进行 一 个 三 趟 连接 时 的 代价 。 图 16-35 所 示 的 
表 总 结 了 这 三 个 完整 的 算法 。 口 
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16.7.6 物理 查询 计划 的 符号 

我 们 已 经 看 到 了 许多 可 以 用 于 形成 一 个 物理 查询 计划 的 操作 符 的 例子 。 一 般 来 说 ， 逻 辑 计 
划 的 每 个 操作 符 成 为 物理 计划 的 一 个 或 多 个 操作 符 ， 逻 辑 计 划 的 叶子 (存储 的 关系 ) 成 为 物理 计 
划 中 适用 于 那个 关系 的 一 个 扫描 操作 符 。 另 外 ， 当 实体 化 结果 被 其 消费 者 访问 时 ， 实 体 化 由 一 
个 store 操 作 符 指示 ， 该 操作 符 应 用 于 将 要 被 物化 的 中 间 结 果 ， 后 跟 一 个 合适 的 扫描 操作 符 
( 常 为 TableSscan， 因 为 中 间 关 系 没有 索引 ， 除 非 明确 地 创建 一 个 )。 然 而 ,为 简便 起 见 ， 在 
物理 查询 计划 树 中 我 们 将 指出 某 一 中 间 关 系 被 一 条 双 线 实体 化 ， 该 线 与 在 那个 关系 与 其 消费 者 
之 间 的 边 交 叉 。 假 定 所 有 其 他 边 表示 元 组 的 提供 者 和 消费 者 之 间 的 流水 线 操 作 。 

我 们 现在 把 在 物理 查询 计划 中 经 常 发 现 的 各 种 不 同 的 算法 进行 分 类 。 不 像 关 系 代数 ， 它 的 
符号 一 般 是 标准 的 。 对 物理 查询 计划 来 说 ， 每 个 DBM4 将 利用 其 本 身 的 内 部 符号 。 
叶子 的 操作 符 

作为 逻辑 查询 计划 的 一 个 叶子 操作 数 的 每 个 关系 R 将 被 一 个 扫描 操作 符 替 代 。 这 些 操作 符 

867| 为 : 

l. TableScan(R): 以 任意 顺序 读 人 所 有 存放 R 的 元 组 的 块 。 

2. SortScan(R, L): 按照 硕 序 读 入 R 的 元 组 ， 并 按 列 表 L 中 的 属性 进行 排列 。 

3. IndexScan(R,C): 这 里 ，C 是 A Qc 的 一 个 条 件 ， 其 中 4 是 R 的 一 个 属性 ，9 是 一 个 比较 操 
作 符 例如 = 或 者 <，c 是 一 个 常量 。 可 以 通过 属性 4 上 的 一 个 索引 来 访问 R 的 元 组 。 如 果 比 较 操作 
符 9 不 是 =， 则 索引 必须 支持 范围 查询 ， 例 如 B 树 。 

4. IndexScan(R,A): 这 里 4 是 R 的 一 个 属性 。 整 个 关系 R 通 过 R.A 上 的 一 个 索引 被 检索 。 这 
个 操作 符 看 起 来 像 rpablescan， 但 是 ， 如 果 R 没 有 被 聚 簇 以 及 /或 者 它 的 块 不 容易 被 找到 ， 则 
在 某 些 环境 下 该 操作 符 也 许 会 更 有 效 。 
选择 的 物理 操作 符 

当 R 是 一 个 存储 关系 时 ， 关 系 R 的 访问 方法 常常 与 逻辑 操作 符 oc(R) 进 行 联合 或 部 分 联合 
他 那些 变 元 不 是 存储 关系 或 者 没有 一 个 合适 的 索引 的 选择 ， 将 被 相应 的 我 们 曾经 称 做 Fi 1 ter 
的 物理 操作 符 替 代 。 我 们 在 16.7.1 节 中 讨 六 伦 过 对 一 个 选择 实现 方法 进行 选取 的 策略 。 用 于 不 同 
选择 实现 方法 的 注意 事项 有 : 

1. 我 们 可 以 简单 地 用 操作 符 Filter (Cc) 替代 oc(R)。 如 果 没 有 R 的 索引 ， 或 者 没有 一 个 条 
件 C 提 到 的 属性 的 索引 ， 则 该 选择 是 有 意义 的 。 如 果 R， 即 选择 操作 的 变 元 ， 实际 上 是 一 个 被 
流水 线 操作 进入 该 选择 的 中 间 关 系 ， 则 除了 Fi1lter 以 外 ， 不 需要 其 他 的 操作 符 。 如 果 R 是 一 
个 存储 关系 或 实体 化 关系 ， 则 我 们 必须 使 用 一 个 操作 符 , TablescanM#sortscan(R, L), 
来 访问 R。 如 果 cc(R) 的 结果 以 后 将 被 传递 给 一 个 需要 其 变 元 被 排序 的 操作 符 ， 则 我 们 也 许 偏 向 
于 排序 - 扫 撒 。 

2. 对 于 某 个 其 他 条 件 D， 如 果 条 件 C 能 够 表示 为 49c AND D， 并 且 有 一 个 RA 的 索引 ， 则 我 们 可 
以 : 

(a) 使 用 操作 符 Indexscan(R, AO c) 来 访问 R; 

(b) 使 用 Filter (D) 替代 选择 cc(R)。 
物理 排序 操作 符 

一 个 关系 的 排序 可 能 发 生 在 物理 查询 计划 中 任何 一 点 。 我 们 已 经 介绍 了 Sortscan (R,L) 
操作 符 ， 该 操作 符 读 取 一 个 存储 关系 R 并 且 根 据 属性 L 的 列表 对 它 进行 排序 。 当 我 们 在 诸如 连 
[868] 接 或 分 组 的 操作 中 采用 一 个 基于 排序 的 算法 时 ， 有 一 个 根据 某 个 属 性 列表 对 变 元 进行 排序 的 初 
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始 阶段 。 一 般 使 用 一 个 显 式 的 物理 操作 符 Sort (L) 来 对 没有 存储 的 一 个 操作 数 关 系 进行 这 一 
排序 。 如 果 是 由 于 在 原始 查询 中 的 ORDER ”BY 子 句 使 得 结果 需要 被 排序 时 ， 则 该 操作 符 也 可 以 
用 于 物理 查询 计划 的 顶层 ， 因 此 它 与 5.4.6 节 中 的 操作 符 有 着 同样 的 作用 。 
其 他 关系 代数 操作 

所 有 其 他 操作 被 一 个 适当 的 物理 操作 符 蔡 代 。 可 以 给 予 这 些 操作 符 一 些 标识 ， 该 标识 指 
BA 

1. 被 执行 的 操作 ， 例 如 ， 连 接 或 分 组 。 

2. 必要 的 参数 ， 例 如 ， 一 个 6 连接 中 的 条 件 或 一 个 分 组 中 的 元 素 列表 。 

3. 算法 的 一 个 通用 策略 : 基于 排序 、 散 列 或 者 在 一 些 连 接 中 基于 索引 。 

4. 关于 要 用 到 的 趟 数 的 一 个 决定 : 一 赵 、 两 趟 或 者 多 趟 (递归 ， 对 数据 使 用 尽 可 能 多 趟 )。 
该 选择 也 可 以 保留 直到 运行 时 。 

5. 操作 所 需 的 预期 缓冲 区 数 。 

例 16.37 图 16-36 所 示 为 在 例 16.36 中 在 > 5000 的 情况 下 所 生成 的 物理 计划 。 在 这 个 计划 
中 ， 我 们 通过 表 扫 描 来 访问 三 个 关系 中 的 每 一 个 。 我 们 对 第 一 个 连接 使 用 一 个 两 趟 散 列 连接 ， 
对 它 进行 实体 化 ， 并 且 对 第 二 个 连接 使 用 一 个 两 趟 散 列 连接 。 实 体 化 的 双 线 符号 的 暗示 顶部 连 
接 的 左 变 元 也 可 以 通过 一 个 表 扫 描 获 得 ， 并 且 使 用 store 操作 符 来 存储 第 -一 个 连接 的 结果 。 

相反 ， 如 果 k<49， 则 在 例 16.36 中 所 生成 的 物理 计划 如 图 16-37 所 示 。 注 意 第 二 个 连接 使 用 


了 一 个 不 同 的 越 数 ， 不 同 的 缓冲 区 数 以 及 一 个 被 流水 化 而 没有 被 实体 化 的 左 变 元 。 o 
两 趟 散 列 连接 BONE 
INEK 50 个 级 冲 区 
PARE TableScan (U) aoe TableScan (U) 
101 个 缓冲 区 101 个 缓冲 
TableScan(R) TableScan (S$) - TableScan (R) TableScan(S) 
图 16-36 例 16.36 的 一 个 物理 计划 图 16-37 在 Red 5 非常 小 的 情况 下 的 另 一 个 物理 计划 
例 16.38 考虑 例 16.35 中 的 选择 操作 ， 该 例 中 我 Filter(x=1 AND z<5) 


们 决定 最 佳 选 择 是 使 用 y 的 索引 来 寻找 y=2 的 那些 元 
组 ， 然 后 用 其 他 条 件 x=1 和 z<5 来 检查 这 些 元 组 。 如 
图 16-38 所 示 为 物理 查询 计划 。 叶 子 表示 R 将 通过 }y 的 





索引 被 访问 ， 只 找 出 y=2 的 元 组 。Filter 操 作 符 要 求 IndexScan(R, y=2) 
我 们 通过 进一步 选择 所 检索 到 的 并 且 满 足 x=1 以 及 图 16-38 使 用 最 恰当 索引 的 一 个 选择 
z<5 的 元 组 来 完成 选择 操作 。 Oy 


16.7.7 物理 操作 的 顺序 
我 们 关于 物理 查询 计划 的 最 后 一 个 主题 是 操作 的 顺序 。 通 常 , 物理 查询 计划 表示 为 一 棵 树 ， 
而 树 暗 示 了 一 些 关于 操作 硕 序 的 东西 ， 因 为 数据 必须 沿 着 树 流动 。 然 而 ， 由 于 紧密 树 可 以 有 既 
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不 是 祖先 节点 也 不 是 另 一 个 点 的 后 代 节点 的 内 部 节点 ， 内 部 节点 估 值 的 顺序 可 能 并 不 总 是 清楚 


的 。 另外 ,由 于 可 以 使 用 迭代 器 来 执行 流 操 作 方式 的 操作 ， 有 可 能 不 同 节点 的 执行 时 间 会 重 释 ， 
因此 节点 顺序 的 概念 就 没有 意义 了 。 

如 果 以 明显 的 “ 先 存 后 取 ”( store-and-later-retrieve ) 方式 执行 实体 化 ， 并 且 以 迭代 器 执行 
流水 线 操作 ， 则 我 们 可 以 建立 事件 的 固定 序列 ， 由 此 可 以 执行 一 个 物理 计划 的 每 一 个 操作 。 以 
下 的 规则 总 结 了 在 一 个 物理 查询 计划 中 隐 式 的 事件 排序 : 

1. 在 表示 物化 的 边 上 将 树 分 解 为 子 树 。 子 树 将 一 次 一 个 地 被 执行 。 

2. 以 从 下 到 上 、 从 左 到 右 的 顺序 依次 执行 各 子 树 。 精 确 地 说 ， 执 行 整 棵 树 的 一 个 前 序 趟 历 。 
以 前 序 趟 历 从 子 树 中 退出 的 顺序 对 子 树 进 行 排序 。 

3. 使 用 一 个 迭代 器 网 络 来 执行 每 一 棵 子 树 的 所 有 节点 。 因 此 ， 在 一 棵 子 树 中 所 有 节点 被 同 
时 执行 ， 并 用 GetNext 调 用 它们 中 间 的 操作 符 来 决定 事件 的 确切 顺序 。 

根据 这 个 策略 ， 查 询 优 化 器 现在 能 够 为 查询 生成 可 执行 的 代码 ， 对 于 查询 也 许 是 一 个 函数 
调用 序列 。 

16.7.8 习题 
习题 16.7.1 考虑 一 个 关系 R(a,b,c,d)， 该 关系 有 一 个 a 的 聚 簇 索引 以 及 对 每 一 个 其 他 属性 的 
非 聚 簇 索 引 。 相 关 变 元 为 :B(R)=1000、T(R)=5000、VR,a)=20、V(R,b)=1000、V(R,c)=5000 
以 及 V(R,d)=500。 对 于 下 列 各 项 选择 ， 给 出 最 佳 查询 计划 ( 索引 扫描 或 者 表 扫 描 ， 然 后 进 
行 一 个 过 滤 步 骤 ) 以 及 磁盘 IO 开销 : 

* a) Oo-l anD b=2 AND a=3(R) 

b) Co-l ann 622 ann c=3(R) 

C) Oa-1 anv b<2 anv c>3( R) 
习题 16.7.2 用 B(R)、ZTR)、V(R,x) 和 VR,y) 来 表示 以 下 关于 R 上 执行 一 个 选择 操作 的 费用 的 
条 件 : 

* a) 通过 x 的 一 个 非 聚 艇 索引 和 使 x 等 于 一 个 常量 的 条 件 来 使 用 索引 扫描 ， 要 比 通过 y 的 
一 个 非 聚 能 索引 以 及 使 y 等 于 一 个 常量 的 条 件 来 使 用 索引 扫描 好 。 
b) 通过 zx 的 一 个 非 聚 艇 索引 和 使 * 等 于 一 个 常量 的 条 件 来 使 用 索引 扫描 ， 要 比 通过 y 的 
一 个 涌 簇 索引 以 及 使 y 等 于 一 个 常量 的 条 件 来 使 用 索引 扫描 好 。 
c) 遂 过 zx 的 一 个 非 聚 篮 索 引 和 使 zx 等 于 一 个 常量 的 条 件 来 使 用 索引 扫描 ， 要 比 通过 y 的 
一 个 聚 秘 索 引 以 及 对 某 些 常量 C 使 y>>C 的 条 件 来 使 用 索引 扫描 好 。 
习题 16.7.3 ”如 果 关 系 R 的 大 小 不 是 5000 块 而 是 以 下 数值 时 ， 在 例 16.36 中 关于 何 时 进行 流 
水 线 操作 的 结论 将 会 有 何 变 化 : 
a) 2000 块 。 
! b) 10 000 块 。 
! c) 100 块 。 
习题 16.7.4 ”假设 我 们 想 以 给 定 的 顺序 计算 (R(a,b) pa S(a,c)) > Ta,d)o 我 们 有 AM=101 的 主 内 
存 缓冲 区 ， 并 且 B(R)=B(S)=2000: 由 于 连接 属性 a 对 两 个 连接 来 说 是 相同 的 ， 因 此 我 们 决 
定 通 过 一 个 两 趟 排序 连接 来 执行 第 一 个 连接 Rx 8， 并 且 对 第 二 个 连接 使 用 合适 的 趟 数 ， 
先 将 7 分 为 一 些 在 a 上 排序 的 子 列 ， 再 将 它们 与 连接 Rw 5 的 经 过 排序 和 流水 操作 的 元 组 流 
进行 复合 。 对 于 7 与 Re 5 连接 ， 我 们 应 该 为 B(D) 选择 什么 值 : 
* a) 一 个 一 趟 连接 ; 例如 ， 我 们 将 7T 读 入 内 存 ， 当 其 元 组 被 生成 时 ， 将 它们 与 Rea 5 的 元 
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组 进行 比较 。 
b) 一 个 两 趟 连接 ; 例如 ， 当 生成 Rm 5 的 元 组 时 ， 我 们 为 7 创建 经 过 排序 的 子 列 ， 并 且 
为 每 一 个 排序 子 列 在 内 存 中 保留 一 个 缓冲 区 。 


16.8 小 结 


* 查询 的 编译 : 编译 将 一 个 查询 变 成 一 个 物理 查询 计划 ， 即 一 个 能 够 由 查询 执行 引擎 执行 
的 操作 序列 。 查 询 编译 的 主要 步骤 是 分 析 、 语 义 检 查 、 选 择优 先 的 逻辑 查询 计划 ( 代数 
表达 式 ) 以 及 由 此 生成 最 佳 物理 计划 。 

"分析 器 : 处 理 一 个 SQL 查询 过 程 中 的 第 一 个 步骤 是 对 其 进行 分 析 ， 就 像 任何 编程 语言 
需要 对 源 代 码 所 做 的 一 样 。 分 析 的 结果 是 与 SQL 结构 相应 的 带 有 节点 的 一 棵 分 析 树 。 
“语义 检查 : 一 个 预 处 理 器 检查 分 析 树 ， 检 查 其 属性 、 关 系 名 以 及 有 意义 的 类 型 ， 并 且 在 
当 几 个 关系 中 有 相同 属性 名 时 解决 属性 参照 的 问题 。 

“转换 为 逻辑 查询 计划 ; 查询 处 理 器 必须 将 经 过 语义 检查 的 分 析 树 转换 为 一 个 代数 表达 式 。 
转换 为 关系 代数 工作 的 绝 大 部 分 是 直接 的 ， 但 是 子 查询 是 一 个 问题 。 通 常 的 方法 是 引进 
一 个 两 变 元 的 选择 ， 将 子 查询 放 和 选择 条 件 中 ， 然 后 使 用 恰当 的 覆盖 常见 的 特殊 情况 的 
转换 。 

"代数 转换 ;使 用 代数 转换 ， 有 许多 方法 可 用 来 将 一 个 远 辑 查询 计划 转换 为 一 个 更 好 的 计 
划 。16.2 节 罗列 了 主要 的 几 种 方法 。 

“选择 一 个 远 辑 查询 计划 : 查询 处 理 器 必须 选择 最 有 可 能 成 为 一 个 有 效 物 理 计划 的 查询 计 
划 。 除 了 使 用 代数 转换 ， 将 结合 和 交换 操作 符 ， 尤 其 是 连接 操作 符 ， 进 行 分 组 是 有 利 的 ， 
所 以 物理 查询 计划 可 以 选择 最 佳 顺序 并 对 这 些 操 作 进 行 分 组 。 

“估计 关系 的 大 小 : 当选 择 最 佳 逻 辑 计划 时 ， 或 者 当 对 连接 或 其 他 可 结合 一 交换 操作 进行 
排序 时 ,我们 使 用 中 间 关 系 的 估计 大 小 ， 代 替 最 终 选 择 的 物理 计划 的 真正 运行 时 间或 磁 
盘 IO 开 销 。 对 于 关系 的 大 小 〈 元 组 数 ) 和 每 个 关系 的 每 个 属性 的 不 同 值 的 数目 ， 不 管 已 
知 的 或 是 估计 的 都 帮助 我 们 获得 中 间 关系 大 小 的 较 好 估计 。 

“直方 图 : 某 些 系统 保持 一 个 给 定 属性 的 值 的 直方 图 。 该 信息 可 以 用 来 获得 中 间 关 系 大 小 
的 估计 ， 这 个 估计 要 好 于 本 章 所 提 到 的 简单 方法 。 

“基于 代价 的 优化 : 当选 择 最 佳 物理 计划 时 ， 必 须 能 够 估计 每 一 个 可 能 计划 的 代价 。 使 用 
不 同 的 策略 来 生成 所 有 或 某 些 实现 一 个 给 定 逻 辑 计 划 的 可 能 的 物理 计划 。 

“计划 枚 举 策略 : 检索 最 佳 物理 计划 的 通用 方法 包括 动态 规划 ( 对 给 定 逻 辑 计划 的 每 一 个 
子 表达 式 ， 制 作 最 佳 计划 表 )、Selinger 风 格 的 动态 规划 ( 包括 作为 表 的 一 部 分 的 结果 的 
排序 ， 该 表 为 每 一 个 排序 的 以 及 未 排序 的 结果 给 出 最 佳 计 划 )、 贪 禁 方 法 〈 做 出 一 系列 局 
部 最 优 的 决定 ， 从 已 有 的 物理 计划 中 选择 )， 以 及 分 枝 和 界定 〈 只 枚 举 那些 还 不 能 立即 知 
道 是 否 比 现 有 的 最 佳 计划 更 差 的 计划 )。 

"ARERR: 当 为 几 个 关系 的 连接 选取 一 个 成 组 和 顺序 时 ， 通 常 将 搜索 限制 在 左 深 树 ， 
即 在 二 又 树 中 只 沿 着 左 侧 的 边 向 下 延伸 ， 留 下 右 侧 的 叶子 。 这 种 形式 的 连接 表达 式 将 有 
利于 生成 有 效 的 计划 ， 并 且 还 大 大 限制 了 需要 考虑 的 物理 计划 的 数目 。 

“选择 的 物理 计划 : 如 果 可 能 的 话 ， 一 个 选择 应 该 被 分 解 成 要 进行 选择 操作 的 关系 的 索引 
扫描 ( 通常 使 用 一 个 索引 的 属性 等 于 一 个 常量 的 条 件 )， 接 着 进行 一 个 过 滤 操 作 。 过 滤器 
检查 通过 索引 扫描 搜索 到 的 元 组 ， 并 且 只 传递 那些 满足 部 分 选择 条 件 的 元 组 ， 而 不 是 那 
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些 基 于 索引 扫描 的 元 组 。 
“流水 操作 与 物化 : 理想 的 情况 下 ， 每 个 物理 操作 符 的 结果 被 另 一 个 操作 符 消费 ， 结 果 在 
主 存 中 的 两 者 之 间 传 递 ( “流水 线 操作 ”)， 也 许 使 用 一 个 迭代 器 来 控制 数据 从 一 个 流向 另 
一 个 。 然 而 ， 有 时 存储 (“物化 ”) 一 个 操作 符 的 结果 是 有 利 的 ， 它 节约 了 另 一 个 操作 符 
所 需 主 存 的 空间 。 因 此 ， 物 理 计划 的 生成 应 该 考虑 中 间 关 系 的 流水 线 操作 以 及 实体 化 。 


16.9 
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第 17 章 系统 故障 对 策 


从 本 章 开始 ， 我 们 集中 考虑 数据 库 管理 系统 中 控制 数据 访问 的 那些 部 分 。 我 们 要 考虑 的 主 
要 有 两 大 问题 : | 

1. 当 故 障 发 生 时 数据 必须 受到 保护 。 本 章 讲述 支持 回复 性 的 相应 技术 ， 回 复 性 指 系统 发 生 
某 些 故障 时 数据 的 完整 性 。 

2. 数据 不 能 仅仅 因为 几 个 无 错 查询 或 数据 库 的 更 新 而 受到 破坏 。 这 一 问题 在 第 18 章 和 第 19 
章 讨 论 。 

支持 回复 性 的 主要 技术 是 日 志 ， 日 志 以 一 种 安全 的 方式 记录 数据 库 变更 的 历史 。 我 们 将 讨 
论 三 种 不 同类 型 的 日 志 , 分 别称 为 “undo”、“redo” 和 “undo/redo”。 我 们 还 将 讨论 恢复 ， 恢 
复 是 故障 发 生 后 使 用 日 志 重 建 数据 库 所 做 更 新 的 过 程 。 日 志和 恢复 的 一 个 重要 方面 是 要 避免 需 
要 追溯 到 很 久 以 前 的 日 志 这 一 情形 。 因 此 ， 我 们 将 要 学 习 称 为 “检查 点 ”的 重要 技术 ， 它 限制 
了 恢复 时 必须 检查 的 日 志 长 度 。 

在 最 后 一 节 中 ， 我们 讨论 “备份 ”( archiving )， 它 使 得 数据 库 不 仅 能 经 受 暂 时 的 系统 故 
障 ， 而 且 可 以 在 整个 数据 库 都 丢失 的 情况 下 使 数据 库存 留 下 来 。 在 这 种 情况 下 ， 我 们 必须 依 
赖 于 数据 库 的 一 个 近期 拷贝 (备份) 以 及 所 有 幸存 的 日 志 信息 ,将 数据 库 恢复 到 最 近 某 个 时 
刻 的 状态 。 


17.1 可 回复 操作 的 问题 和 模型 


我 们 从 可 能 发 生 的 各 种 问题 及 数据 库 管理 系统 针对 这 些 问 题 能 做 什么 、 该 怎么 着 手 开 始 来 
讨论 如 何 对 付 故障 。 首 先 我 们 主要 讨论 “系统 故障 ”或 “崩溃 ”"”， 日 志和 恢复 机 制 的 设计 正 是 
用 来 修复 这 几 类 错误 。 在 17.1.4 节 我 们 还 将 引入 缓冲 区 管理 模型 ， 它 是 对 系统 错误 恢复 进行 的 
所 有 讨论 的 基础 。 下 一 章 我 们 讨论 几 个 事务 并 发 访问 数据 库 时 仍 需 要 这 个 模型 。 

17.1.1 故障 模式 

在 查询 和 更 新 数据 库 时 可 能 发 生 多 种 多 样 的 问题 。 问 题 的 范围 从 键盘 输入 错误 数据 到 存储 
数据 库 的 磁盘 所 在 房间 发 生 的 爆炸 。 下 面 列 出 最 重要 的 故障 模式 及 DBMS 对 这 些 故 障 所 能 采取 
的 行动 。 
错误 数据 输入 

有 的 数据 错误 是 不 可 能 被 检测 到 的 。 例如， 如果 某 个 职员 把 你 的 电话 号 码 中 的 一 位 输 错 了 ， 
号 码 看 起 来 可 能 仍然 是 你 的 。 另 一 方面 ， 如 果 职 员 遗 漏 了 你 的 电话 导 码 中 的 一 位 ， 数 据 就 显然 
是 错 的 ， 因 为 它 不 具有 电话 号 码 应 有 的 格式 。 

现代 的 DBMS 提 供 许多 软件 机 制 ， 以 捕捉 那些 可 被 检测 的 输入 错误 。 例 如 ，SQL 标 准 以 及 
所 有 流行 的 SQL 实现 中 都 为 数据 库 设计 者 提供 了 在 数据 库 模 式 中 引入 约束 的 方法 ， 如 码 约束 、 
外 码 约束 和 值 的 约束 ( 例如， 电话 号 码 长 度 必 须 是 10 位 )。 触 发 器 是 一 旦 某 种 类 型 的 更 新 〈 如 
在 关系 R 中 插入 一 个 元 组 ) 发 生 就 执行 的 程序 ， 用 来 检查 刚刚 进入 的 数据 是 否 满足 数据 库 设 计 
者 认为 它 应 满足 的 约束 。 


562 #17 Ž 








介质 故障 

磁盘 的 局 部 故障 ， 即 只 改变 一 位 或 少数 几 位 的 故障 ， 通 常 能 通过 与 磁盘 房 区 相关 联 的 奇偶 
校 验 检测 到 ， 正 如 我 们 在 11.3.5 节 讨论 的 那样 。 磁 盘 的 主要 故障 ， 通 常 是 磁头 损坏 ， 使 整个 厂 
盘 都 不 再 能 被 访问 ， 这 时 通常 用 下 述 方法 中 的 一 种 或 两 种 来 处 理 : 

1. 采用 11.7 节 讨论 的 某 种 RAID 模 式 ， 这 样 ,丢失 的 磁盘 就 可 以 被 恢复 。 

2. 维护 一 个 备份 ， 即 数据 库 在 诸如 磁带 或 光盘 这 样 的 介质 上 的 一 个 拷贝 。 备 份 周 期 性 地 创 
建 ， 可 以 是 完全 的 或 增 量 式 的 ， 存 储 在 与 数据 库 自身 相距 大 于 某 个 安全 的 距离 的 地 方 。 我 们 将 
在 17.5 节 讨论 备份 。 

3. 我 们 可 以 不 采用 备份 ， 而 是 联机 保存 数据 库 的 元 余 拷贝 ， 这 些 拷贝 分 布 在 几 个 节点 上 。 
维护 这 些 拷贝 一 致 性 的 机 制 我 们 将 在 19.6 节 讨论 。 
灾难 性 故障 

这 类 故障 包括 容纳 数据 库 的 介质 完全 筑 坏 的 多 种 情况 ， 例 如 爆炸 或 大 火 以 及 对 数据 库 站 点 
的 非法 人 侵 ， 对 此 RAID 也 无 能 为 力 ， 因 为 所 有 的 数据 盘 及 其 奇偶 校 验 盘 同时 失去 作用 。 但 是 ， 
用 于 防止 介质 故障 的 其 他 方法 ( 备份 和 元 余 分 布 式 拷贝 ) 也 可 以 用 来 防止 灾难 性 故障 。 
系统 故障 

查询 和 修改 数据 库 的 进程 称 为 事务 。 事 务 和 其 他 任何 程序 一 样 执行 一 系列 步骤 ; 通常 这 些 
步骤 中 的 一 部 分 将 修改 数据 库 。 每 个 事务 有 一 个 状态 , 代表 该 事务 中 到 目前 为 止 已 发 生 了 什么 。 
状态 包括 所 执行 事务 代码 中 的 当前 位 置 和 所 有 以 后 将 会 需要 的 事务 局 部 变量 的 值 。 

系统 故障 是 导致 事务 状态 丢失 的 问题 。 典 型 的 系统 故障 包括 掉 电 和 软件 错误 。 要 明白 诸如 
断 电 之 类 的 问题 为 什么 会 导致 状态 的 丢失 ， 请 注意 事务 和 其 他 任何 程序 一 样 ， 它 的 各 个 步骤 最 
初 是 在 主 存 中 进行 的 。 和 磁盘 不 同 ， 内 存 是 “ 易 失 性 的 ”"， 正 如 我 们 在 11.2.6 节 讨论 的 那样 。 也 
就 是 说 ， 掉 电 会 导致 主 存 中 的 内 容 消失 ， 而 磁盘 上 的 ( 非 易 失 性 的 ) 数据 完好 无 损 。 类 伏地 ， 
一 个 软件 错误 可 能 覆盖 主 存 的 一 部 分 ， 也 许 会 修改 程序 状态 的 值 。 

当主 存 丢失 时 ， 事 务 状态 就 丢失 了 ; 也 就 是 说 ， 我 们 不 再 能 确定 事务 的 哪些 部 分 (包括 它 对 
数据 库 的 修改 ) 已 经 进行 。 重 新 运行 事务 不 一 定 能 解决 问题 。 例 如 ， 如 果 事 务必 须 将 数据 库 中 的 
某 个 值 加 1， 我 们 并 不 知道 到 底 是 否 应 该 再 重复 加 1。 解 决 由 系统 错误 所 引起 问题 的 基本 方法 是 
在 分 离 的 、 非 易 失 性 的 日 志 中 记录 所 有 数据 库 更 新 ， 必 要 时 加 上 恢复 。 但 是 ， 要 保证 这 样 的 日 
志 记 载 能 以 一 种 不 受 故障 干扰 的 方式 进行 ， 其 机 制 非常 复杂 ， 正 如 我 们 将 在 17.2 节 看 到 的 那样 。 
17.1.2 关于 事务 的 进一步 讨论 

8.6 节 中 从 SQL 程序 员 的 角度 介绍 了 “事务 ”的 概念 。 在 我 们 进入 对 数据 库 回 复 人 性 和 故障 恢 
复 的 讨论 之 前 ， 需 要 进一步 更 详细 地 讨论 有 关 事 务 的 基本 概念 。 

事务 是 数据 库 操作 的 执行 单位 。 例 如 ， 如 果 我 们 正在 向 一 个 SQL 系统 提交 即席 的 命令 , 那 
么 每 一 个 查询 或 数据 库 更 新 语句 就 是 一 个 事务 。 当 我 们 使 用 嵌入 式 SQL 接 口 时 ， 事 务 的 范围 就 
由 编程 者 控制 ， 它 既 可 以 包括 若干 查询 和 更 新 ， 又 可 以 包括 在 宿主 语言 中 进行 的 操作 。 在 典型 
的 撒 人 式 SQL 系 统 中 ， 一 旦 对 数据 库 进行 的 操作 执行 ， 事 务 就 开始 ， 而 事务 的 结束 使 用 显 式 的 
COMMITERROLLBACK (“终止 ”) 命令 。 

正如 我 们 将 在 17.1.3 节 中 讨论 的 那样 ,事务 必须 原子 地 执行 ， 即 全 做 或 全 不 做 ， 并 且 似 乎 
它 是 在 某 个 时 刻 瞬间 完成 的 。 保 证 事务 正确 执行 是 事务 管理 器 的 工作 ， 这 一 子 系统 完成 的 功能 
包括 : 

1. 给 日 志 管理 器 ( 下 面 讲述 ) 发 信和 号， 使 必需 的 信息 能 以 “日 志 记录 ”的 形式 存储 在 日 志 中 。 
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2. 保证 并 发 执行 的 事务 不 会 相互 干扰 ， 否 则 将 导致 错误 (“调度 ”; 见 18.1 节 )。 

事务 管理 器 及 其 相互 作用 如 图 17-1 所 示 。 事 务 管理 器 将 关于 事务 动作 的 消息 传 给 日 志 管 理 
器 ,将 关于 何 时 可 以 或 必须 将 缓冲 区 搁 回 磁盘 的 消息 传 给 缓冲 区 管理 器 ， 并 传 消息 给 查询 处 理 
器 使 之 能 执行 查询 以 及 其 他 构成 事务 的 数据 库 操 作 。 

日 志 管 理 器 维护 日 志 。 它 必须 同 缓冲 区 管理 器 打交道 ， 因 为 日 志 的 空间 最 初 存在 于 主 存 组 
冲 区 中 ， 在 一 定 的 时 候 这 些 缓冲 区 必须 被 拷贝 到 磁盘 上 。 日 志和 数据 一 样 占用 磁盘 上 的 空间 ， 
正如 我 们 在 图 17-1 中 表示 的 那样 。 

最 后 我 们 在 图 17-1 中 给 出 恢复 管理 器 的 作用 。 当 系统 刷 演 时 ， 恢 复 管理 器 就 被 激活 。 它 检查 
日 志 并 在 必要 时 利用 日 志 恢 复数 据 。 和 平常 一 样 ， 对 磁盘 的 访问 是 通过 缓冲 区 管理 器 来 进行 的 。 





图 17-1 日 志 管理 器 与 事务 管理 器 


17.1.3 事务 的 正确 执行 

在 讨论 如 何 纠正 系统 的 铺 误 之 前 ， 我 们 必须 理解 事务 “正确 ”执行 意味 着 什么 。 首 先 假设 
数据 库 由 “元 素 ”组 成 。 我 们 并 不 打算 精确 定义 什么 是 “元 素 "， 而 只 是 指出 元 素 具 有 -一 个 值 
并 且 能 被 事务 访问 或 修改 。 不 同 的 数据 库 系统 使 用 不 同 的 元 素 概念 ,但 它们 常常 是 从 以 下 各 项 
中 选择 一 个 或 多 个 : 

1. 关系， 或 其 面向 对 象 的 等 价 概念 : 类 外 延 。 

2. 磁盘 块 或 页 。 

3. 关系 的 单个 元 组 ， 或 其 面向 对 象 的 等 价 概念 ， 对象。 

在 接 下 来 的 例子 中 ， 读 者 可 以 将 数据 库 元 素 设想 为 元 组 ， 在 许多 例子 中 甚至 可 以 设想 为 束 
数 。 但 是 ， 实 践 中 选择 选项 (2) ( 磁盘 块 或 页 ) 作为 数据 库 元 素 有 很 多 很 好 的 理由 。 使 用 这 种 
方式 ， 缓 冲 区 内 容 成 为 单个 元 素 ， 使 我 们 可 以 避 开 一 些 有 关 日 志和 事务 的 严重 问题 ， 这 些 问 题 
在 我 们 学 习 不 同 技术 的 过 程 中 会 不 断 发 现 。 避 免 大 于 磁盘 块 的 数据 库 元 素 还 可 以 避 开 崩 演 发生 
时 元 素 的 部 分 (但 并 非 全 部 ) 已 被 放 到 非 易 失 性 存储 中 的 情况 。 

数据 库 具 有 其 状态 ， 即 对 应 于 其 各 个 元 素 的 取 值 9。 直觉 上 ， 我 们 认为 某 些 状态 是 一 致 的 ， 
而 男 一 些 是 不 一 致 的 。 一 致 的 状态 满足 数据 库 模式 的 所 有 约束 ， 例 如 键 码 约束 和 值 的 约束 。 但 


O 我 们 不 能 混淆 数据 库 状态 与 事务 状态 ; 后 者 是 事务 局 部 变量 的 取 值 ， 而 不 是 数据 库 元 素 的 取 值 。 
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是 ， 一致 的 状态 还 必须 满足 数据 库 设 计 者 心目 中 的 隐 式 约束 。 隐 式 约 束 可 能 通过 作为 数据 库 模 
式 一 部 分 的 触发 器 来 维护 ， 但 也 可 能 仅仅 通过 有 关 数 据 库 的 策略 说 明 或 与 用 于 更 新 的 用 户 界面 
相关 的 警告 信息 来 维护 。 

关于 事务 的 一 个 基本 假设 是 : 

“正确 性 原则 : 如 果 事务 在 没有 其 他 任何 事务 和 系统 错误 的 情况 下 执行 ， 并且 在 它 开 始 执行 






正确 性 原则 可 信 吗 ? 

如 果 数 据 岩 事务 可 以 是 在 某 个 终端 上 提交 的 即席 修改 命令 ， 而 提交 命令 的 人 并 不 知 
道 数据 库 设 计 者 心目 中 隐 式 的 约束 ， 那 么 所 有 事务 都 将 数据 库 从 一 个 一 致 的 状态 转换 到 
另 一 个 一 致 的 状态 ， 这 一 假设 合理 吗 ? 显 式 的 约束 由 数据 库 体现 ， 所 以 任何 违背 这 些 约 
束 的 事务 都 会 被 系统 拒绝 ， 因 而 根本 不 会 改变 数据 库 。 而 对 于 隐 式 的 约束 ， 在 任何 情况 
下 都 没 人 能 准确 地 刻画 它们 。 我 们 认为 正确 性 原则 合理 的 理由 是 ， 如 果 一 个 人 被 赋予 修 
政 数据 库 的 权利 ， 那 么 他 也 有 权 决 定 隐 式 的 约束 是 什么 。 


时 数据 库 处 于 一 致 的 状态 ， 那么 当 事 务 结束 时 数据 库 仍然 处 于 一 致 的 状态 。 

正确 性 原则 的 反面 表述 构成 了 本 章 所 讨论 的 日 志 技 术 以 及 第 18 章 讨论 的 并 发 控制 机 制 的 动 
机 。 这 一 反面 表述 包括 两 点 : 

1. 事务 是 原子 的 ; 即 事务 必须 作为 整体 执行 或 根本 不 执行 。 如 果 仅 有 事务 的 部 分 被 执行 ， 
那么 很 有 可 能 所 产生 的 数据 库 状态 是 不 一 致 的 。 

2. 事务 的 同时 执行 可 能 导致 状态 的 不 一 致 ， 除 非 我 们 设法 控制 它们 之 间 的 相互 影响 ， 正 如 
我 们 将 在 第 18 章 中 所 做 的 那样 。 
17.1 4 事务 的 原 语 操 作 

我 们 现在 详细 考虑 事务 如 何 同 数据 库 交 互 。 有 三 个 地 址 空间 ， 它 们 在 重要 的 方面 相互 影响 : 

1. 保存 数据 库 元 素 的 磁盘 块 空间 。 

2. 缓冲 区 管理 器 所 管理 的 虚 存 或 主 存 地 址 空间 。 

3. 事务 的 局 部 地 址 空间 。 

事务 要 读 取 数据 库 元 素 ， 该 元 素 首 先 必须 被 取 到 主 存 的 一 个 或 多 个 缓冲 区 中 ， 除 非 它 已 经 
在 那里 。 接 下 来 ， 缓 冲 区 中 的 内 容 可 以 被 事务 读 到 其 局 部 地 址 空间 中 。 事 务 为 数据 库 元 素 写 人 
一 个 新 值 要 沿 着 与 此 相反 的 路 径 。 事 务 首先 在 自己 的 局 部 空间 中 创建 新 值 ， 然 后 该 值 被 拷贝 到 
适当 的 缓冲 区 中 。 

缓冲 区 可 能 是 也 可 能 不 是 立即 拷贝 到 磁盘 ; 这 一 决定 通常 是 缓冲 区 管理 器 的 任务 。 正 如 我 
们 即将 看 到 的 那样 ， 使 用 日 志 来 保证 系统 故障 发 生 时 的 回复 性 ， 其 最 基本 的 步 又 之 一 是 在 适当 
的 时 候 强 制 缓 冲 区 管理 器 将 缓冲 区 中 的 块 写 回 磁盘 。 但 是 ， 为 了 减少 磁盘 UO 次 数 ， 数 据 库 系 
统 可 以 允许 并 且 将 会 允许 更 新 只 存在 于 易 失 性 的 主 存 中 ， 至 少 在 某 些 时 间 段 中 以 及 适当 的 条 件 
组 合 下 。 

为 了 研究 日 志 算 法 和 其 他 事务 管理 算法 的 细节 ， 我 们 需要 一 种 记 法 来 描述 所 有 使 数据 在 地 
址 空间 之 间 移 动 的 操作 。 我 们 将 使 用 的 原 语 包括 : 

1. INPUT (X) : 将 包含 数据 库 元 素 X 的 磁盘 块 拷贝 到 内 存 缓冲 区 。 

2. READ(X,t): 将 数据 库 元 素 X 找 由 到 事务 的 局 部 变量 :。 更 准确 地 说 ， 如 果 包 含 数据 库 
元 素 X 的 块 不 在 内 存 缓冲 区 中 ， 则 首先 执行 INPUT (X) 。 接 着 将 X 的 值 赋 给 局 部 变量 1。 

3. WRITE (X,t): 将 局 部 变量 {的 值 拷贝 到 内 存 缓冲 区 中 的 数据 库 元 素 X。 更 准确 地 说 ， 如 
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果 包 含 数据 库 元 素 X 的 块 不 在 内 存 缓冲 区 中 ， 则 首先 执行 INPUT (x). Bee BIS p 
区 中 的 X。 
4. OUTPUT (X): 将 包含 X 的 缓冲 区 拷贝 回 磁盘 。 


查询 处 理 与 事务 中 的 缓冲 区 
如 果 你 已 经 习惯 于 有 关 查 询 处 理 的 章节 中 对 缓冲 区 使 用 的 分 析 ， 或 许 会 发 现在 这 里 
我 们 的 视点 有 所 改变 。 在 第 15 章 和 第 16 章 中 ， 我 们 对 缓冲 区 的 兴趣 主要 在 查询 求 值 中 用 


于 计算 临时 关系 时 。 这 是 缓冲 区 的 一 个 重要 用 途 ， 但 由 于 临时 值 从 不 需要 保存 ， 因 此 这 
些 缓冲 区 的 值 通常 是 不 记录 日 志 。 另 一 方面 ， 包 含 从 数据 库 中 检索 出 的 数据 的 缓冲 区 需 
要 保存 其 中 的 值 ， 特 别 是 事务 更 新 这 些 值 时 。 





只 要 数据 库 元 素 存在 于 单个 磁盘 抉 中 ， 也 就 会 存在 于 单个 缓冲 区 中 ， 上 述 操 作 就 是 有 意义 
的 。 当 数据 库 元 素 是 块 时 正 是 这 样 的 情况 。 只 要 关系 模式 不 允许 元 组 比 一 个 磁盘 块 所 能 提供 的 
空间 大 ， 那 么 当 数据 库 元 素 是 元 组 时 也 满足 这 样 的 情况 。 如 果 数 据 库 元 素 占据 多 个 块 ， 那 么 我 
们 把 元 素 中 每 个 具有 块 大 小 的 部 分 本 身 看 做 一 个 元 素 。 我 们 将 使 用 的 日 志 机 制 保证 只 有 在 写 X 
是 原子 的 时 候 事务 才能 完成 ; 即 要 么 X 的 所 有 块 都 被 写 到 磁盘 上 ， 要 么 都 没有 写 到 磁盘 上 。 因 
此 ， 我 们 在 对 日 志 进 行 讨论 的 整个 过 程 中 将 假定 : 

“数据 库 元 素 的 大 小 不 超过 一 个 块 。 

请 注意 发 出 这 些 命令 的 DBMS 成 分 是 不 同 的 ， 这 很 重要 。READ 和 WRITE 由 事务 发 出 。 
INPUT 和 OUTPUT 由 缓冲 区 管理 器 发 出 ， 尽 管 在 某 些 情况 下 oUTPUT 也 能 由 日 志 管 理 器 发 起 ， 
正如 我 们 将 看 到 的 那样 。 

例 17.1 ”为 了 明白 上 述 原 语 操 作 如 何 同事 务 所 要 做 的 联系 起 来 ， 我 们 来 看 具有 两 个 元 素 A 
和 B 的 数据 库 ， 这 两 个 元 素 要 满足 的 约束 是 在 任何 一 致 的 状态 中 它们 的 值 相 等 9。 

事务 7 在 逻辑 上 由 下 述 两 步 构成 


注意 ， 如 果 数 据 库 惟 一 的 一 一 致 性 要 求 是 4 = 3， 而 且 7 从 一 个 正确 的 状态 开始 ， 在 其 完成 动作 的 
过 程 中 没有 其 他 事务 以 及 系统 故障 的 于 扰 ， 那 么 最 终 的 状态 也 必然 是 一 致 的 。 也 就 是 说 ，7 将 
两 个 相等 的 元 素 加 倍 ， 得 到 两 个 新 的 相等 的 元 素 。 

. 7 的 执行 包括 从 磁盘 读 4 和 8 ， 在 7 的 局 部 地 址 空间 中 执行 算术 运算 ， 以 及 将 4 和 B 的 新 值 写 
入 其 缓冲 区 中 。 我 们 可 以 将 7 表述 为 六 个 相关 步 又 的 序列 ， 


READ(A,t); t := t*2; WRITE(A,t); 
READ(B,t); t := t#2; WRITE(B,t); 


此 外 ， 缓 冲 区 管理 器 最 终 将 执行 OUTPUT 步 又 ,将 这 些 缓冲 区 写 回 磁盘 。 图 17-2 给 出 了 7 的 原 语 
步骤 ， 其 后 跟随 着 缓冲 区 管理 器 的 两 个 ouTrPUT 命 令 。 我 们 假设 最 初 4 = B = 8。 图 中 给 出 了 每 
一 步 中 4 和 8B 的 内 存 值 、 磁 盘 拷 贝 的 值 以 及 事务 7 地 址 空间 中 局 部 变量 {的 值 。 
第 一 步 ，7 读 4， 如 果 4 的 块 还 不 在 缓冲 区 中 ， 这 将 导致 对 缓冲 区 管理 器 的 INPUT (A) 命令。 
© 读者 可 能 会 问 为 什么 我 们 要 自 寻 烦恼 地 使 用 两 个 不 同 的 元 素 而 且 约 束 它们 必须 相等 ， 而 不 是 只 维护 一 个 元 素 ， 


这 是 很 有 道理 的 。 但 是 ， 这 个 简单 的 数量 约束 抓 住 了 很 多 更 加 现实 的 约束 的 核心 ， 例 如 ， 一 次 航班 售 出 的 座 
位 数 多 于 飞机 上 的 座位 数 不 能 超过 10% ， 一 个 银行 贷款 余额 总 和 必须 等 于 该 银行 的 总 债务 。 
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READ 命 令 还 将 4 的 值 拷 贝 到 7 地址 空间 中 的 局 部 变量 1。 第 二 步 将 加倍 ， 对 4 没有 任何 影响 ,不 
管 是 缓冲 区 中 还 是 磁盘 上 。 第 三 步 将 ! 写 到 缓冲 区 的 A 中 ; 它 不 会 影响 磁盘 上 的 4。 接 下 来 的 三 
步 对 8 做 同样 的 事 ， 而 最 后 两 步 将 4 和 B 拷 贝 到 磁盘 。 

不 难 发 现 ， 只 要 所 有 这 些 步骤 都 执行 ， 数 据 库 的 一 致 性 就 能 得 到 保持 。 如 果 在 执行 
OUTPUT (A) 前 发 生 了 系统 故障 ， 那 么 磁盘 上 存储 的 数据 库 不 会 受到 任何 影响 ， 就 仿佛 7 从 未 发 
生 ， 因 而 一 致 性 得 到 保持 。 但 是 ， 如 果 系 统 故障 在 oUTPUT (A) 后 而 在 OUTPUT (B) HR, AB 
么 数据 库 就 会 处 于 不 一 致 的 状态 。 我 们 不 能 防止 这 种 情况 的 发 生 ， 但 可 以 安排 当 这 种 情况 发 生 














时 对 问题 进行 修复 一 一 或 者 4 和 B 都 被 重 置 为 8 ， 或 者 二 者 都 更 新 为 16。 口 
动 作 磁盘 4 | 磁盘 B 
READ(A,t) 8 
t := t*2 8 
WRITE(A,t) 8 
READ(B,t) 8 
t := t*2 8 
WRITE(B,t) 8 
OUTPUT CA) 8 
OUTPUT (B) 16 
图 17-2 一 个 事务 的 步骤 及 其 对 内 存 和 磁盘 的 影响 
17.1.5 习题 
习题 17.1.1 假设 数据 库 上 的 一 致 性 约束 是 0 过 4 太刀。 判断 以 下 各 事务 是 否 保持 一 致 性 。 
* a) A := A+B; B := A+B; 
b) B := A+B; A := A+B; 
c) A := B+l; B := A+l; 


习题 17.1.2 对 习题 17.1.1 中 的 每 个 事务 ， 在 计算 中 加 入 读 写 动作 ， 并 给 出 各 步骤 对 主 存 和 
磁盘 产生 的 影响 。 假 设 最 初 4 =5 且 B = 10。 此 外 ， 请 说 明 当 oUTPUT 动 作 顺 序 恰当 时 ， 是 
否 有 可 能 即使 在 事务 执行 过 程 中 发 生 了 故障 ， 一 致 性 仍 能 得 到 保持 。 


17.2 undo 日 志 


我 们 现在 从 日 志 作 为 保证 事务 原子 性 的 一 种 方法 方面 开始 研究 日 志 ， 事务 的 原子 性 指 从 数 
据 库 来 看 ， 事 务 要 么 作为 一 个 整体 被 执行 ， 要 人 么 根本 不 执行 。 日 志 是 日 志 记录 的 一 个 序列 ， 每 
个 日 志 记录 记载 有 关 某 个 事务 已 做 的 事 的 某 些 情况 。 几 个 事务 的 行为 可 以 是 “交错 的 ”， 因 此 
可 能 是 一 个 事务 的 某 个 步骤 被 执行 并 且 其 效果 被 记录 到 日 志 中， 接着 对 另 一 事务 的 某 个 步骤 做 
同样 的 事情 ， 然 后 对 第 一 个 事务 的 下 一 步骤 或 第 三 个 事务 的 某 个 步骤 ， 依 此 类 推 。 事 务 的 交错 
执行 使 日 志 更 复杂 ; 仅 在 事务 结束 后 记载 事务 的 全 过 程 是 不 够 的 。 

如 果 系 统 崩 省 ， 日 志 将 被 查阅 ， 以 重建 朋 溃 发 生 时 事务 正在 做 的 事情 。 日 志 还 可 以 和 备份 
一 起 用 于 某 个 未 存储 日 志 的 磁盘 发 生 介质 故障 时 。 通 常 ， 为 了 修复 崩溃 造成 的 影响 ， 某 些 事务 
的 工作 将 会 重 做 ， 它 们 写 到 数据 库 中 的 新 值 要 重 写 一 次 。 而 另 一 些 事务 的 工作 将 会 撤销 ， 数 据 
库 被 恢复 ， 就 仿佛 这 些 事务 未 曾 执行 过 。 

我 们 的 第 一 种 日 志 类 型 称 为 undo 日 志 ， 这 类 日 志 仅仅 进行 第 二 类 修复 。 如 果 不 能 完全 确定 
事务 的 影响 已 经 完成 并 且 已 存储 到 磁盘 上 ， 那 么 事务 对 数据 库 所 做 的 所 有 更 新 都 将 被 撤销 ， 数 
据 库 状态 被 恢复 到 事务 发 生 以 前 的 状态 。 

本 节 我 们 将 介绍 日 志 记 录 的 基本 思想 ,包括 提交 ( 事务 的 成 功 完成 ) 动作 及 其 对 数据 库 状 
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上 。 最 后 ， 我 们 要 具体 地 看 一 看 undo 日 志 ， 人 懂得 从 崩溃 中 恢复 时 如 何 利用 它 。 为 了 避免 在 恢复 


为 什么 事务 可 能 终止 ? 
读者 可 能 会 疑惑 为 什么 事务 会 终止 而 不 是 提交 。 事 实 上 有 几 个 原因 。 最 简单 的 是 在 
事务 自身 的 代码 中 有 某 些 错误 情况 ， 例 如 通过 “撤销 ”事务 来 处 理 的 除 零 企 图 。DBMS 也 


可 能 由 于 一 个 或 多 个 原因 需要 终止 事务 。 例 如 ， 事 务 可 能 陷入 死 锁 中 ， 这 时 该 事务 和 其 
他 的 一 个 或 多 个 事务 各 自 占有 其 他 事务 等 待 的 某 个 资源 ( 如， 为 某 个 数据 库 元 素 写 入 新 
值 的 权利 )。 我 们 将 在 19.3 节 看 到 ， 这 种 情况 下 系统 必须 强迫 一 个 或 多 个 事务 终止。 


时 不 得 不 检查 整个 日 志 ， 我 们 引入 “检查 点 ”这 一 想法 , 它 使 得 我 们 可 以 抛弃 日 志 中 旧 的 部 分 。 
undo 日 志 的 检查 点 机 制 在 本 节 中 将 会 明确 谈 到 。 
17.2.1 日 志 记 录 

不 妨 将 日 志 看 做 一 个 按 只 允许 附加 的 方式 打开 的 文件 。 当 事务 执行 时 ， 日 志 管 理 器 负责 在 
日 志 中 记录 每 个 重要 的 事件 。 每 次 日 志 的 一 个 块 被 填 满 日 志 记 录 ， 每 个 日 志 记录 对 应 于 这 些 事 
件 中 的 一 个 。 日志 块 最 初 在 主 存 中 创建 ， 和 DBMS 所 需 的 其 他 任何 块 一 样 由 缓冲 区 管理 器 分 配 。 
一 旦 合适 ,日志 块 就 被 写 到 磁盘 的 非 易 失 性 存储 中 ; 关于 这 个 问题 我 们 在 17.2.2 节 中 有 进一步 
的 讨论 。 

本 章 我 们 所 讨论 的 各 种 日 志 类 型 用 到 的 日 志 记 录 有 几 种 形式 ， 包 括 : 

1. <START T>: 这 一 记录 表示 事务 7 已 开始 。 

2. <COMMIT T>: 事务 7 已 成 功 完 成 并 且 对 数据 库 元 素 不 会 再 有 修改 。7 对 数据 库 所 做 的 任 
何 更 新 都 应 反映 到 磁盘 上 。 然 而 ， 由 于 我 们 不 能 控制 缓冲 区 管理 器 何 时 决定 将 块 从 主 存 拷 贝 到 
磁盘 ， 当 我 们 看 到 <COMMIT T> 日 志 记 录 时 ， 通常 不 能 确定 磁盘 已 经 进行 了 更 新 。 如 果 我 们 坚 
持 更 新 已 经 在 磁盘 上 ， 这 一 要 求 必 须 由 日 志 管理 器 来 体现 ( 正如 undo 日 志 的 情况 那样 )。 

3. <ABORT T>: 事务 7 不 能 成 功 完成 。 如 果 事 务 7 终止 ， 它 所 做 的 更 新 都 不 能 已 经 被 拷贝 
到 磁盘 上 ， 并 且 日 志 管 理 器 有 责任 保证 这 样 的 更 新 永 不 出 现在 磁盘 上 或 当 此 发 生 时 消除 对 磁盘 
的 影响 。 我 们 将 在 19.1.1 节 讨论 消除 中 止 事务 的 影响 这 一 问题 。 

对 undo 日 志 而 言 ， 更 新 记录 是 我 们 惟一 需要 的 其 他 日 志 记录 类 型 ， 更 新 记录 是 一 个 三 元 组 
<T, X, >。 这 一 记录 的 含义 是 : 事务 7 改变 了 数据 库 元 素 X， 而 X 原 来 的 值 是 v。 更 新 记录 所 反映 的 
改变 通常 发 生 在 主 存 中 而 不 是 磁盘 土 ; 即日 志 记 录 是 对 wRITE 动 作 做 出 的 反应 而 不 是 对 oUTPUT 


一 个 更 新 记录 有 多 大 ? 

如 有 果 数 据 库 元 素 是 磁盘 块 ， 而 更 新 记录 和 包括 数据 库 元 素 的 旧 值 ( 或 数据 库 元 素 的 新 
值 和 旧 值 ， 正 如 17.4 节 undo/redo 日 志 中 我 们 将 看 到 的 那样 )， 那 么 似乎 一 个 日 志 记 录 的 大 
小 可 能 超过 一 个 块 。 这 并 不 构成 问题 ， 因 为 和 任何 传统 文件 一 样 ， 我 们 可 以 将 日 志 看 做 
磁盘 块 的 一 个 序列 ， 将 字 节 存放 到 这 些 块 时 不 必 考 虑 块 边界 。 但 是 ,我们 有 多 种 压缩 日 
志 的 方法 。 例 如 在 某 些 情况 下 ， 我 们 可 以 仅 记 载 更 新 ， 如 某 个 元 组 中 被 事务 改变 的 属性 
的 名 宁 及 其 旧 值 。 关 于 在 “逻辑 日 志 ” 中 记载 更 新 这 一 问题 将 在 19.1.7 节 讨论 。 


动作 做 出 的 反应 (参阅 17.1.4 节 去 回想 这 些 操 作 的 区 别 )。 此 外 还 请 注意 undo 日 志 不 记录 数据 库 
元 素 的 新 值 ， 而 只 记录 旧 值 。 正 如 我 们 将 看 到 的 那样 ， 如 果 在 使 用 undo 日 志 的 系统 中 需要 进行 
恢复 时 ， 恢 复 管理 器 要 做 的 惟一 事情 是 通过 恢复 旧 值 消除 事务 可 能 在 磁盘 上 造成 的 影响 。 
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17.2.2 undo 日 志 规则 
要 让 undo 日 志 能 使 我 们 从 系统 故障 中 恢复 ， 事 务必 须 遵 循 两 条 规则 。 这 些 规则 影响 到 缓冲 
人 并 且 要 求 一 旦 事务 提交 就 要 执行 某 些 动作 。 我 们 在 此 对 这 些 规则 进行 概括 。 
; 如 果 事 务 7 改变 了 数据 库 元 素 X， 那 么 形 如 <T, X, vy> 的 日 志 记 录 必须 在 X 的 新 值 写 到 磁 
盘 前 写 到 磁盘 。 
: 如 果 事 务 提交 ， 则 其 CoMMIT 日 志 记录 必须 在 事务 改变 的 所 有 数据 库 元 素 已 写 到 磁盘 
后 再 写 到 磁盘 ， 但 应 尽快 。 
简要 概括 规则 UU 和 U2,， 与 事务 相关 的 内 容 必 须 按 如 下 顺序 写 到 磁盘 : 
a) 指明 所 改变 数据 库 元 素 的 日 志 记 录 。 
b) 改变 的 数据 库 元 素 自身 。 
c) COMMIT 日 志 记 录 。 
但 是 ，(a) 和 (b) 的 顺序 是 对 各 个 数据 库 元 素 单独 适用 ， 而 不 是 对 事务 的 更 新 记录 集合 整个 适用 。 
为 了 强制 将 日 志 记 录 写 到 磁盘 上 ， 日 志 记 录 需 要 一 条 刷新 日 志 命 令 来 告诉 缓冲 区 管理 器 
将 以 前 没有 拷贝 到 磁盘 的 日 志 记 录 或 从 上 一 次 拷贝 以 来 已 发 生 修改 的 日 志 记 录 拷 贝 到 磁盘 。 
在 动作 的 序列 中 ， 我 们 将 显 式 地 给 出 FLUSH LoG。 事 务 管理 器 还 需要 以 某 种 方式 告诉 缓冲 
管理 器 在 某 个 数据 库 元 素 上 执行 OUTPUT 动 作 。 在 事务 步骤 的 序列 中 我 们 将 继续 给 出 
OUTPUT 动 作 。 
例 17.2 ”让 我 们 按照 undo 日 志 来 重新 考虑 例 17.1 中 的 事务 。 图 17-3 对 图 17-2 进 行 了 扩展 ， 
以 给 出 必须 和 事务 7 的 动作 一 起 发 生 的 日 志 项 以 及 刷新 日 志 动作 。 注 意 ， 我 们 将 “4 在 主 存 组 
冲 区 中 的 拷贝 ” 简 记 为 M-4， 将 “B 在 磁盘 上 的 拷贝 ” 简 记 为 D-B， 依 此 类 推 。 
图 17-3 的 第 1 行 ， 事 务 7 开始 。 发 生 的 第 一 件 事 是 <START 人 2 记录 被 写 到 日 志 中 。 第 2 行 表 
示 7 读 4。 第 3 行 是 在 局 部 对 ! 做 修改 ， 既 不 影响 存储 在 磁盘 上 的 数据 库 ， 也 不 影响 主 存 缓冲 区 中 
数据 库 的 任何 部 分 。 第 2 行 与 第 3 行 都 不 需要 日 志 项 ， 因 为 它们 对 数据 库 没 有 影响 。 
第 4 行将 A 的 新 值 写 到 缓冲 区 。 对 A 的 这 一 修改 由 日 志 项 <T, A, 8> 反 映 ， 它 表示 4 被 7 修改 ， 
其 改 前 值 为 8。 注 意 ， 新 值 16 在 undo 日 志 中 并 没有 提 到 。 


其 他 日 志方 式 预 览 

在 “redo 日 志 ”(17.3 节 ) 中 ,恢复 时 我 们 重 做 所 有 已 开始 但 未 提交 的 事务 。redo 日 志 
的 规则 保证 我 们 不 必 重 做 一 个 事务 ， 如 果 日 志 上 有 它 的 COMMIT 记 录 。 “undo/redo 日 志 ” 
《17.4 节 ) 在 恢复 时 撤销 所 有 未 提交 的 事务 ， 并 重 做 已 提交 的 事务 。 同 样 ， 关 于 日 志和 组 
冲 区 管理 的 规则 保证 这 些 步骤 能 成 功 地 修复 数据 库 的 任何 损坏 。 

















影响 日 志和 缓冲 区 的 后 台 活 动 
当 我 们 看 到 图 17-3 中 那样 的 一 系列 动作 和 日 志 项 ， 很 容易 将 这 些 动作 看 做 是 弧 立 发 生 
的 。 然 而 ，DBMS 可 能 同时 处 理 多 个 事务 。 因 此 ， 日 志 中 事务 T 的 四 条 日 志 记 录 可 能 和 其 
他 事务 的 记录 相互 交错 。 此 外 ， 如 果 这 些 事务 中 的 一 个 刷新 日 志 ， 那 么 T 的 日 志 记录 出 现 
在 磁盘 上 可 能 比 图 17-3 中 刷新 日 志 记录 所 隐 含 的 要 早 。 反映 数据 库 改变 的 日 志 记 录 比 所 怖 
的 更 早出 现 并 没有 坏处 ， 并 且 我 们 要 等 到 T 的 OUTPUT 动 作 完成 才 写 <COMMIT T> 记 录 ， 
因而 保证 修改 后 的 值 出 现在 磁盘 上 比 COMMIT 记 录 要 早 。 . 
如 有 果 数据 库 元 素 4 和 B 共 用 一 个 块 ， 情 况 会 更 炎 手 。 这 时 ， 将 它们 中 的 一 个 写 到 磁盘 












也 就 将 另 一 个 写 到 磁盘 。 在 最 坏 的 情况 下 ， 我 们 可 能 由 于 将 其 中 的 一 个 元 素 过 早 地 写 到 
磁盘 而 违反 规则 Li。 为 了 能 让 undo 日 志 发 挥 作用 ， 我 们 可 能 有 必要 在 事务 上 采用 一 些 附 


加 的 约束 。 例 如， 我们 可 以 像 18.3 节 描述 的 那样 ， 在 数据 库 元 素 是 磁盘 块 时 使 用 封锁 机 制 ， 
以 防止 两 个 事务 同时 访问 同一 块 。 数 据 库 元 素 是 块 的 部 分 时 出 现 的 这 一 问题 以 及 其 他 问 
题 促使 我 们 建议 以 块 作为 数据 库 元 素 。 


第 5 行 到 第 7 行 重复 同样 的 三 个 步骤， 不 过 是 对 8 而 非 对 4。 这 时 ，7 已 经 完成 并 且 必 须 提 交 。 
它 希 望 修 改 后 的 4 和 8 转 到 磁盘 上 ， 但 为 了 遵循 undo 日 志 的 两 条 规则 ， 一 系列 固定 的 事件 必须 
发 生 。 

首先 ，4 和 B 只 有 在 关于 修改 的 日 志 记 录 在 先 写 到 磁盘 上 后 才能 被 拷贝 到 磁盘 。 因 此 ， 在 
第 8 步 日 志 被 刷新 ， 以 保证 这 些 记录 出 现在 磁盘 上 。 接 着 ， 第 9 步 和 第 10 步 将 4 和 B 拷 贝 到 磁盘 。 
事务 管理 器 为 了 提交 7， 需 要 请 求 缓冲 区 管理 器 执行 这 些 步 又 。 


t |M-A|M-B|D-A|D-B H 志 
<START T> 

















2) | READCA,t) | 8 


8 8 
3) | t := t*2 16 8 8 8 
4) | WRITE(A,t) | 16 16 8 8 | <T, A,8> 
5) | READ(B,t) 8 16 8 8 8 
6) | t := t*2 16 16 8 8 8 
7) | WRITE(B,t) | 16 16 16 8 8 | <T,B,8> 


8) | FLUSH LOG 
9) | OUTPUT (CA) 16 16 16 16 8 

10) | QUTPUTCB) 16 16 16 16 16 

11) <COMMIT T> 
12) | FLUSH LOG 





图 17-3 动作 及 其 日 志 项 


现在 可 以 提交 7T 了 ， 于 是 <COMMIT 7> 记 录 被 写 到 日 志 中 ， 这 就 是 第 11 步 。 最 后 在 第 12 步 ， 
我 们 必须 再 次 刷新 日 志 ， 以 保证 <CoMMIT 7> 记 录 出 现在 磁盘 上 。 注 意 ， 如 果 这 一 记录 没有 写 
到 磁盘 上 ， 我 们 就 可 能 遇 到 这 样 的 情况 ， 即 事务 已 经 提交 ， 但 在 很 长 一 段 时 间 内 查看 日 志 我 们 
都 看 不 出 它 已 经 提交 。 这 种 情况 可 能 在 崩溃 发 生 时 带 来 一 些 奇 怪 的 行为 ， 因 为 正如 我 们 将 在 
17.2.3 节 看 到 的 那样 ， 一 个 在 用 户 看 来 已 经 提交 并 已 将 其 修改 写 到 磁盘 上 的 事务 这 时 将 被 撤销 ， 
因而 在 效果 上 等 同 于 被 终止 。 Oo 


17.2.3 使 用 undo 日 志 的 恢复 

现在 假设 系统 故障 发 生 了 。 有 可 能 给 定 事务 的 某 些 数据 库 更 新 已 经 写 到 磁盘 上 ， 而 同一 事 
务 的 另 一 些 更 新 尚未 到 达 磁 盘 。 如 果 这 样 ， 事 务 的 执行 就 不 是 原子 的 ， 数 据 库 状 态 就 可 能 不 一 
致 。 使 用 日 志 将 数据 库 状 态 恢复 到 某 个 一 致 的 状态 是 恢复 管理 器 的 任务 。 

本 节 我 们 只 考虑 恢复 管理 器 最 简单 的 形式 ， 这 样 的 恢复 管理 器 不 管 日 志 有 多 长 ， 都 要 查看 


整个 日 志 ， 作 为 检查 的 结果 它 还 会 对 数据 库 做 一 些 改变 。 在 17.2.4 节 我 们 考虑 一 种 更 合乎 情理 


的 方式 ， 其 中 在 日 志 上 定期 做 “检查 点 "， 以 限制 恢复 管理 器 必须 回 淹 的 历史 长 度 。 

恢复 管理 器 的 第 一 个 任务 是 将 事务 划分 为 已 提交 事务 和 未 提交 事务 。 如 果 有 日 志 记 录 
<COMMIT 7>， 那 么 根据 undo 规 则 到 ， 事 务 7 所 做 的 全 部 改变 在 此 之 前 已 写 到 磁盘 上 。 因 此 当 
系统 故障 发 生 时 ，7 自 己 不 可 能 使 数据 库 处 于 不 一 致 的 状态 。 
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然而 ,假设 我 们 在 日 志 上 发 现 了 <START TT> 记 录 但 未 发 现 <cCOMMIT 7T> 记 录 ， 那 么 有 可 
能 在 甬 省 前 7 对 数据 库 所 做 的 某 些 修 改 已 经 写 到 磁盘 上 ， 而 7 的 另 一 些 修 改 甚 至 在 主 存 缓冲 区 中 
都 还 没有 进行 ， 或 者 在 缓冲 区 中 进行 了 但 还 未 拷贝 到 磁盘 上 。 在 这 种 情况 下 ，7 是 一 个 未 完成 
的 事务 因而 必须 被 撤销 。 也 就 是 说 ，7 所 做 的 任何 改变 都 必须 重 置 为 其 原 有 的 值 。 幸 运 的 是 ， 
规则 如 保证 如 果 T 在 崩溃 前 改变 了 磁盘 上 的 X， 那 么 日 志 中 会 有 <T, X, v> 记 录 ， 并 且 该 记录 在 月 
省 发 生前 已 被 拷贝 到 磁盘 。 因 此 ， 恢 复 时 我 们 必须 为 数据 库 元 素 X 写 人 值 v。 注 意 ， 这 一 规则 避 
开 了 X 在 数据 库 中 值 是 否 为 "的 问题 ; 我 们 甚至 不 必 检 查 。 

由 于 日 志 中 可 能 有 一 些 末 提交 的 事务 ， 并且 其 至 可 能 有 一 些 未 提交 的 事务 修改 了 X， 所 以 
我 们 在 恢复 值 的 顺序 上 必须 是 有 规划 的 。 因 此 ， 恢 复 管理 器 必须 从 尾部 开始 扫描 日 志 ( 即 从 最 
近 写 的 记录 到 最 早 写 的 记录 )。 在 扫描 过 程 中 ,恢复 管理 器 记 住 所 有 有 <cCOMMIT T>R 
<ABORT 7> 记 录 的 事务 7。 同时 在 其 向 后 扫描 过 程 中 ， 如 果 它 看 见 记 录 <T,X,v>， 则 ;: 

1. 如 果 T 的 coMMIT 记 录 已 被 扫描 到 ， 则 什么 也 不 做 。T 已 经 提交 ， 因 而 不 需要 撤销 。 

2. 否则 ，7 是 一 个 未 完成 的 事务 或 一 个 终止 的 事务 。 恢 复 管理 器 必须 将 崩溃 前 已 发 生变 化 
的 数据 库 中 的 X 的 值 改 为 v。 

在 做 过 这 些 改 动 后 ， 恢 复 管理 器 必须 为 之 前 未 终止 的 每 个 未 完成 事务 7 书写 日 志 记 录 
<ABORT T>， 之 后 刷新 日 志 。 现 在 ， 数 据 库 可 以 重新 开始 正常 操作 ， 新 事务 开始 执行 。 

例 17.3 ”让 我 们 考虑 图 17-3 与 例 17.2 中 的 动作 序列 。 系 统 崩 淡 可 能 发 生 的 不 同时 机 有 几 
个 ; 让 我 们 来 考虑 每 个 有 明显 差别 的 时 机 。 

1. 崩溃 在 第 12 步 后 发 生 。 这 种 情况 下 ， 我 们 知道 <coMMIT T > 记录 在 崩溃 前 到 达 磁 盘 。 
当 我 们 恢复 时 ， 没 有 必要 撤销 7 的 结果 ， 所 有 与 了 相关 的 日 志 记录 被 恢复 管理 器 忽略 。 

2. 甬 泪 发 生 在 第 11 步 和 第 12 步 之 间 。 包 含 coMMIT 的 日 志 记录 可 能 已 被 刷新 到 磁盘 ;例如 ， 


恢复 过 程 中 的 崩溃 

假设 当 我 们 从 上 一 次 前 溃 中 恢复 时 系统 又 一 次 崩溃 。 由 于 undo 日 志 记录 的 设计 方式 ， 
所 给 的 是 旧 值 而 不 是 数据 库 元 素 值 的 改变 ， 因 此 恢复 步骤 是 蛙 等 的 〈(idempotent )， 即 将 
它们 重复 多 次 与 执行 一 次 的 效果 完全 相同 。 我 们 已 经 注意 到 ， 如 果 发 现 记录 <T,X,v>,X 的 
值 是 否 已 经 为 v 无 关 紧 要 一 一 不 管 怎样 我 们 都 可 以 为 X 写 入 v。 类 似 地 ， 如 果 我 们 不 得 不 重 
复 恢复 过 程 ， 那 么 第 一 个 未 完成 的 恢复 过 程 是 否 已 恢复 旧 值 是 无 关 紧 要 的 ; 我 们 只 需 再 
次 恢复 它们 。 顺 便 提 一 下 ， 同 样 的 推理 对 本 章 讨 论 的 其 他 日 志方 式 也 成 立 。 由 于 恢复 操 
作 是 轿 等 的 ， 因 而 我 们 再 次 进行 恢复 时 不 必 考 虑 前 一 次 恢复 所 做 的 更 改 。 


缓冲 区 管理 器 可 能 需要 把 包含 日 志 结 尾 的 缓冲 区 提供 给 另 一 事务 , 或 者 另外 的 某 个 事务 已 请 求 
刷新 日 志 。 如 果 这 样 ， 那 么 就 7 而 言 其 恢复 和 情况 1 一 样 。 但 是 ， 如 果 coMMIT 记 录 尚 未 到 达 磁 
盘 ， 那 么 恢复 管理 器 认为 T 示 完成。 当 它 向 后 扫描 日 志 时 ， 首先 遇 到 记录 <T, B, 8>。 于 是 它 将 B 
在 磁盘 上 的 值 存 为 8 。 接 着 它 遇 到 记录 <T, A, 8> 并 将 4 在 磁盘 上 的 值 置 为 8。 最 后 ， 记 录 
<ABORT 7> 被 写 到 日 志 中 且 日 志 被 刷新 。 

3. 崩 演 发 生 在 第 10 步 和 第 11 步 之 间 。 现 在 ，comMIT 记 录 肯 定 没有 写 入 ， 因 此 7 未 完成 并 
且 会 像 情况 2 中 那样 撤销 。 

4. 崩溃 发 生 在 第 8 步 和 第 10 步 之 间 。 和 情况 3 一 样 ，7 也 被 撤销 。 惟 一 的 区 别 是 现在 4 和 /或 
3 的 更 新 可 能 尚未 到 达 磁 盘 。 不 管 怎样 ， 这 些 数 据 库 元 素 中 的 每 一 个 都 被 存 为 正确 的 值 8。 

5. 崩溃 发 生 在 第 8 步 以 前 。 现 在 ， 关 于 7 的 日 志 记 录 是 否 已 到 达 磁 盘 上 并 不 确定 。 然 而 这 无 










关 紧 要 ， 因 为 根据 规则 已 我 们 知道 ， 如 果 对 4 和 /或 3 所 做 更 新 到 达 磁 盘 ， 则 相应 的 日 志 记录 也 
到 达 磁 盘 ， 因 而 如 果 7 在 磁盘 上 改变 了 4 和 /或 8， 那 么 相应 的 日 志 记录 将 使 恢复 管理 器 撤销 这 些 
改变 。 口 
17.2.4 检查 点 

正如 我 们 看 到 的 那样 ， 恢 复原 则 上 需要 检查 整个 日 志 。 当 采用 undo 类 型 的 日 志 时 ， 一 旦 事 
务 的 COMMIT 日 志 记 录 被 写 到 磁盘 上 ， 该 事务 的 日 志 记录 在 恢复 时 就 不 再 需要 。 我 们 可 以 设想 
在 COMMIT 前 删除 日 志 ， 但 有 时 却 不 能 。 原 因 在 于 ， 常 常 是 很 多 事务 同时 在 执行 。 如 果 我 们 在 

一 个 事务 提交 后 将 日 志 截 断 ， 关于 另外 的 某 个 活跃 事务 7 的 日 志 记录 就 可 能 丢失 因而 不 能 在 需 
要 进行 恢复 时 用 来 撤销 7。 

解决 潜在 的 问题 最 简单 的 方法 是 周期 性 地 对 日 志 做 检查 点 。 在 一 个 简单 的 检查 点 中 ， 我 
们 将 ; 

1. 停止 接受 新 的 事务 。 

等 到 所 有 当前 活路 的 事务 提交 或 终止 ,并且 在 日 志 中 写 人 了 COMMIT 或 ABORT 记 录 。 
.将 日 志 刷 新 到 磁盘 。 

4. 写 人 日 志 记 录 <CKPT>， 并 再 次 刷新 日 志 。 

5. 重新 开始 接受 事务 。 

所 有 在 检查 点 前 执行 的 事务 将 已 经 完成 ， 并 且 根 据 规则 上 其 更 新 将 已 经 到 达 磁 盘 。 因 此 ， 
恢复 时 这 些 事务 中 的 任何 一 个 都 不 需要 撤销 。 在 人 恢复 中 ， 我 们 从 日 志 尾部 开始 向 后 扫描 ， 确 定 
未 完成 的 事务 ， 就 像 17.2.3 节 中 那样 。 但 是 ， 当 发 现 <cCKPT> 记 录 时 ， 我 们 知道 已 经 看 到 了 所 
有 未 完成 的 事务 。 由 于 只 有 在 检查 点 结束 后 事务 才能 开始 ， 我 们 必然 已 经 看 到 了 关于 未 完成 事 
务 的 所 有 日 志 记录 。 因 此 没有 必要 扫描 <cKkPT> 以 前 的 部 分 ， 并 且 事 实 上 将 该 点 以 前 的 日 志 删 
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除 或 覆盖 是 安全 的 。 
例 17.4 假设 日 志 开始 是 : 
<START T:> 
Ta 5> Én ASS 
<START T> <START T> 
<T, B, 10> 
<T:, B, 10> <Tz,C,15> 
这 时 ,我 们 决定 做 一 个 检查 点 。 由 于 7 和 7 是 活路 的 (未 完成 的 ) 事 Com Te 
务 ， 我 们 将 不 得 不 等 到 它们 完成 后 才能 在 日 志 中 写 人 <CKpT> 记 录 。 <COMMIT T> 
Hak SES) FTT BE OR O74 RAR ABBR INT BA BB SSTART Ty> 
溃 。 从 尾部 开始 扫描 日 志 ， 我 们 确定 Z 是 惟一 的 未 完成 事务 ， 并 且 <Ts, E, 25> 
分 别 将 BE 和 恢复 到 其 改 前 值 53 和 30。 当 到 达 <cKPT> 记 录 时 ， 我 们 < | 
知道 没有 必要 再 检查 以 前 的 日 志 记 录 ， 并 且 数 据 库 状态 的 恢复 已 经 。 图 17-4 一 个 undo 日 志 


完成 。 口 
17.2.5 非 静止 检查 点 

上 一 节 所 述 检查 点 技术 的 一 个 问题 是 ， 我 们 在 设置 检查 点 时 相当 于 关闭 了 系统 。 由 于 活 唉 
事务 可 能 需要 很 长 时 间 来 提交 或 终止 ， 在 用 户 看 来 系统 似乎 停止 了 。 因 此 ， 一 种 称 为 非 静 止 检 
查 点 的 更 复杂 的 技术 通常 更 受 欢迎 ， 它 在 系统 处 于 检查 点 时 允许 新 事务 进入 。 非 静止 检查 点 的 
步骤 包括 : 
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1. 写 人 日 志 记 录 <STRART CKPT(T), =, Ti)> 并 刷新 日 志 。 其 中 Ti,…, Ti 是 所 有 活跃 事务 ( 即 
尚未 提交 和 将 其 改写 到 磁盘 的 事务 ) 的 名 字 或 标识 符 。 

2. 等 待 Ti, … Ti 中 的 每 一 个 提交 或 中 止 ， 但 允许 其 他 事务 开始 。 

3. HT, …, Ti 都 已 完成 时 ， 写 人 日 志 记 录 <END CKPT> 并 刷新 日 志 。 

采用 这 种 类 型 的 日 志 ， 我们 可 以 按照 如 下 所 述 从 系统 故障 中 恢复 。 和 通常 一 样 ， 我 们 从 尾 
部 开始 扫描 日 志 ， 在 进行 过 程 中 找到 所 有 未 完成 的 事务 ， 并 将 这 些 事务 所 改变 的 数据 库 元 素 恢 
复 为 其 日 值 。 根 据 在 向 后 扫描 时 我 们 先 遇 到 <END cKPT> 记 录 还 是 <START CKPT(T，…, T)> 
记录 ， 有 两 种 情况 。 

。 如 果 先 遇 到 <END CKPT> 记 录 ， 那么 我 们 知道 所 有 未 完成 事务 在 前 一 <sTART CKPT 

(了 ,…，TD> 记 录 后 开始 。 因 此 我 们 可 以 向 后 扫描 ， 直 到 下 一 个 START CKPT 记 录 ， 然 后 

就 停止 ， 以 前 的 日 志 没有 用 处 ， 因 而 也 是 可 以 所 弃 的 


最 后 一 条 日 志 记 录 的 发 现 
日 志 本 质 上 是 一 个 文件 ， 它 的 块 中 存放 日 志 记 录 。 块 中 从 未 填充 过 的 空间 可 以 被 标 
注 为 “ 空 "。 和 如果 记录 永远 不 被 覆盖 ， 那 么 通过 搜索 第 一 个 空 记录 ， 并 将 该 记录 的 前 一 记 
录 作 为 文件 结尾 ， 恢 复 管 理 器 可 以 找到 最 后 一 条 日 志 记 录 。 
但 是 ， 如 果 履 盖 旧 的 日 志 记 录 ， 那 么 我 们 需要 为 每 条 记录 保存 一 个 序列 号 ， 序列 号 
递增 ， 如 下 所 示 ; 
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我 们 可 以 找到 序列 号 比 下 一 记录 的 大 的 那 条 记录 ; 二 者 中 人 靠 后 的 记录 将 是 日 志 当 前 
的 结尾 ， 而 通过 将 当前 记录 按照 它们 现在 的 序列 号 排序 ， 整 个 日 志 就 可 以 被 找到 。 

实践 中 ， 一 个 大 的 日 志 可 能 由 多 个 文件 构成 ， 其 中 有 一 个 “顶层 ”文件 ， 该 文件 的 
记录 表 明 构 成 日 志 的 文件 。 在 恢复 时 ， 我 们 找到 项 层 文件 的 最 后 一 条 记录 ， 到 达 它 所 表 
明 的 文件 ， 并 在 那里 找到 最 后 一 条 记录 。 





“如 果 先 遇 到 <START CKPT(T，…, 7 )> 记 录 ， 那 么 朋 演 发 生 在 检查 点 过 程 中 。 但 是 ， 未 
完成 的 事务 只 有 在 向 后 扫描 过 程 中 到 达 sSTART cKPT 前 遇 到 的 那些 以 及 Ti, …, T 中 在 发 
生 裔 省 前 还 没有 完成 的 那些 。 因 此 ， 我 们 扫描 到 这 些 未 完成 事务 中 最 早 的 那个 事务 的 开 
始 就 不 必 再 继续 向 后 扫描 。 前 一 个 START ckpT 记 录 当 然 比 这 些 事 务 的 开始 都 早 ， 但 通 
常 我 们 发 现 这 些 未 完成 事务 的 开始 比 到 达 上 一 检查 点 要 早 得 多 9 。 此 外 ， 如 果 用 指针 将 
属于 同一 事务 的 日 志 记 录 链 在 一 起 ， 那 么 我 们 不 需要 搜索 整个 日 志 来 找到 属于 活路 事务 
的 记录 ; 只 需要 沿 着 它们 的 链接 向 后 查看 日 志 。 

一 个 通常 的 规律 是 ， 一 旦 <END cKPT> 记 录 写 到 了 磁盘 ， 我 们 就 可 以 将 上 一 个 START 

CKPT 记 录 前 的 日 志 删 除 。 
例 17.5 假设 和 例 17.4 中 一 样 ， 日 志 开 始 是 : 


<START T> 
<T, A, 5> 


@ 但 请 注意 ， 由 于 检查 点 是 非 静止 的 ， 因 此 未 完成 事务 中 可 能 有 事务 在 上 一 检查 点 开始 和 结束 之 间 开 始 。 
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<START T> 
<T, B, 10> 
ME, RIRE RAIER ERE o MFO ER ARR (ATER) BS, 我们 写 
人 日 志 记录 
<START CKPT (Tj, T> 
假设 在 等 待 T. 和 TT 完成 时 ， 另 一 个 事务 73 开始 了 。 日 志 后 续 部 分 的 一 种 可 能 情况 如 图 17-5 所 示 。 
假设 这 时 发 生 了 系统 崩溃 。 从 尾部 开始 检查 日 志 ， 我 们 发 现 7 是 未 完成 的 事务 ， 因 而 必须 
被 撤销 。 最 后 一 条 日 志 记录 告诉 我 们 将 数据 库 元 素 严 恢复 为 值 30。 当 发 现 <END CKPT> 记 录 时 ， 
我 们 知道 所 有 未 完成 事务 在 前 一 个 START cKpT 后 开始 。 进 一 步 向 后 扫描 ， 我 们 发 现 记 录 <T， 
E, 25>， 它 告诉 我 们 将 E 恢 复 为 值 25。 在 该 记录 与 START cKPT 之 闻 没 有 其 他 已 开始 但 尚未 提 
交 的 事务 ， 所 以 对 数据 库 不 再 做 进一步 的 改变 。 
现在 我 们 来 考虑 崩溃 发 生 在 检查 点 过 程 中 的 情况 。 假 设 骨 省 后 日 志 的 结尾 如 图 17-6 所 示 。 
向 后 扫描 ， 我 们 先 确定 7 然后 又 确定 7 是 未 完成 的 事务 ， 并 撤销 它们 所 做 的 修改 。 当 发 现 
<START CKPT (T, 7))> 记 录 时 ， 我 们 知道 其 他 可 能 未 完成 的 事务 只 有 T。 但 是 ,已 经 扫描 到 
了 <COMMIT Ti> 记 录 ， 所 以 我 们 知道 7 不 是 未 完成 的 。 我 们 也 已 经 看 到 了 <START T;> 记 录 。 
因此 ， 我 们 只 需要 继续 向 后 扫描 直到 7 的 START 记 录 ， 并 在 此 过 程 中 将 数据 库 元 素 8 恢 复 为 





值 10。 口 
<START TI> 
<T, A,5> 
<START 72> 
<T, B,10> <START 7 > 
<START CKPT (Ti, T2)> <T, A, 5> 
<T,C,15> <START T2> 
<START 73> <T>, B, 10> 
<T,, D,20> <START CKPT (Tı ; T2)> 
<COMMIT Ti > <T2,C,15> 
<Ts, E,25> <START 73> 
<COMMIT 72 > <T, D, 20> 
<END CKPT> <COMMIT 7, > 
<T3, F,30> <T3, E,25> 
图 17-5 一 个 使 用 非 静止 检查 点 的 undo 日 志 图 17-6 检查 点 过 程 中 系统 崩溃 时 的 undo 日 志 
17.2.6 习题 


习题 17.2.1 给 出 习题 17.1.1 中 各 个 事务 〈 称 其 为 7) 的 undo 日 志 ， 假 设 开始 时 4 = 5 且 B = 10。 
习题 17.2.2 ”对 每 个 表示 事务 7 的 动作 的 日 志 记 录 系 列 ， 说 明 所 有 合乎 undo 日 志 规 则 的 事 
件 系 列 ， 其 中 我 们 关心 的 事件 是 将 包含 数据 库 元 素 的 块 以 及 包含 更 新 和 提交 记录 的 日 志 
写 到 磁盘 。 可 以 假定 日 志 记录 按 下 面 所 示 顺 序 写 磁 盘 ; 即 不 可 能 在 前 一 记录 还 没有 写 到 磁 
盘 时 将 一 记录 写 到 磁盘 。 
* a) <START T>; <T, A, 10>; <T, B, 20>; <COMMIT T>; 
b) <START T>; <T, A, 10>; <T, B, 20>; <T, C, 30> <COMMIT T>; 

! 习题 17.2.3 ”习题 17.2.2 引 人 的 模式 可 以 扩展 到 事务 为 m 个 数据 库 元 素 写 人 新 值 的 情况 。 如 
有 果 遵 从 undo 日 志 规则 ， 这 样 的 一 个 事务 有 多 少 合法 的 事件 系列 ? 
习题 17.2.4 下面 是 两 个 事务 7 和 U 的 一 系列 日 志 记录 : <START T>; <T, A, 10>; <START 
U>; <U, B, 20>; <T, C, 30>; <U, D, 40>; <COMMIT U>; <T, E, 50>; <COMMIT T>。 描 述 怖 
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复 管理 器 的 行为 ， 包 括 对 磁盘 和 日 志 所 做 的 改变 ， 假 设 发 生 故 障 且 出 现在 磁盘 上 的 最 后 一 
条 日 志 记录 为 : 
a) <START U> 
* b)<COMMIT U> 
c) <T, E, 50> 
d) <COMMIT T> 
习题 17.2.5 ”对 于 习题 17.2.4 描 述 的 每 种 情况 ，7T 和 U 所 写 的 哪些 值 必然 出 现在 磁盘 上 ? 哪 
些 值 可 能 出 现在 磁盘 上 ? 

! 习题 17.2.6 假设 改变 习题 17.2.4 中 的 事务 U， 使 <U, D, 40> 记 录 变 为 <U, A, 40>。 如 果 在 
事件 系列 中 的 某 个 时 刻 发 生 故 障 ， 对 4 在 磁盘 上 的 值 有 什么 影响 ? 这 个 例子 对 undo 日 志 自 
身 在 保持 事务 原子 性 能 力 方面 说 明了 什么 ? 
习题 17.2.7 考虑 如 下 日 志 记 录 系 列 : <START S>; <S, A, 60>; <COMMIT S>; <START 
T>; <T, A, 10>; <START U>; <U, B, 20>; <T, C, 30>; <START V>; <U, D, 40>: <V, F, 
70>; <COMMIT U>; <T, E, 50>; <COMMIT T>; <V, B, 80>; <COMMIT V>。 假 设 我 们 在 (内 
F) 写 人 如 下 的 一 条 日 志 记 录 后 立即 开始 一 个 非 静止 检查 点 : 

a) <S, A, 60> 

* b) <T, A, 10> 
c) <U, B, 20> 
d) <U, D, 40> 
e) <T, E, 50> 

对 其 中 的 每 一 个 ， 说 明 : 
D 何 时 写 人 <END CKPT> 记 录 ; 并 且 
2) 对 于 每 一 个 可 能 发 生 故 障 的 时 刻 ， 为 了 找到 所 有 可 能 未 完成 的 事务 ， 我 们 需要 在 日 
志 中 回溯 多 远 。 


17.3 redo 日 志 


尽管 undo 日 志 提供 了 一 种 维护 日 志和 从 系统 故障 中 恢复 的 简单 而 自然 的 策略 ， 但 它 并 不 是 
惟一 可 能 的 方法 。undo 日 志 一 个 潜在 的 问题 是 ， 我 们 在 将 事务 改变 的 所 有 数据 写 到 磁盘 前 不 能 
提交 该 事务 。 有 时 ， 如 果 让 数据 库 修 改 暂时 只 存在 于 主 存 中 ， 我 们 可 以 节省 磁盘 IO; 只 要 在 
裔 省 事件 发 生 时 有 日 志 可 以 用 来 修复 ， 这 样 做 是 安全 的 。 

如 果 我 们 使 用 一 种 称 为 redo 日 志 的 日 志 机 制 ， 立 即将 数据 库 元 素 备 份 到 磁盘 的 需要 就 可 以 
被 避免 。redo 日 志和 undo 日 志 的 主要 区 别 是 ; 

1. undo 日 志 在 恢复 时 取消 未 完成 事务 的 影响 并 忽略 已 提交 事务 ， 而 redo 日 志 忽略 未 完成 的 
事务 并 重复 已 提交 事务 所 做 的 改变 。 

2. undo 日 志 要 求 我 们 在 COMMIT 日 志 记录 到 达 磁 盘 前 将 修改 后 的 数据 库 元 素 写 到 磁盘 ， 而 
redo 日 志 要 求 COMMIT 记 录 在 任何 修改 后 的 值 到 达 磁 盘 前 出 现在 磁盘 上 。 

3. 当 遵循 undo 规 则 UV 和 Usb 时， 发 生 改 变 的 数据 库 元 素 的 旧 值 才 是 恢复 时 我 们 所 需要 的 ， 而 
使 用 redo 日 志 恢 复 时 ， 我 们 需要 的 是 新 值 。 因 此 ，redo 日 志 记 录 尽 管 和 undo 日 志 记 录 的 形式 一 
样 ， 但 含义 不 同 。 

17.3.1 redo 日 志 规则 
redo 日 志 中 日 志 记 录 <T, X, v> 的 含义 是 “ 事务 7 为 数据 库 元 素 X 写 新 信 y 。 在 这 个 记录 中 


* 


RRB R 575 


没有 指出 X 的 旧 值 。 每 当 一 个 事务 7 修改 一 个 数据 库 元 素 X 时 ， 形 如 <7, X, v> 的 一 条 记录 必须 被 
写 人 日 志 中 。 、 
另外 ， 数 据 和 日 志 项 到 达 磁 盘 的 顺序 可 以 用 一 条 “redo 规 则 ”描述 ， 这 条 规则 称 为 提前 写 
A “me o 
: 在 修改 磁盘 上 的 任何 数据 库 元 素 X 以 前 ， 要 保证 所 有 与 X 的 这 一 修改 相关 的 日 志 记录 ， 
包括 更新 记录 < ve R<COMMIT T> 记 录 ， 都 必须 出 现在 磁盘 上 。 
由 于 事务 的 COMMIT 记 录 只 有 在 事务 结束 后 才能 写 人 日 志 ， 因 而 提交 记录 必然 在 所 有 更 新 
日 志 记 录 后 ， 所 以 我 们 可 以 将 规则 RR 的 效果 概括 为 如 下 断言 : 当 使 用 redo 日 志 时 ， 与 事务 相关 
的 材料 写 到 磁盘 的 顺序 为 : 
1. 指出 被 修改 元 素 的 日 志 记录 。 
2. COMMIT 日 志 。 
3. 改变 的 数据 库 元 素 自 身 。 
例 17.6 让 我 们 考虑 与 例 17.2 中 相同 的 事务 T。 图 17-7 给 出 了 该 事务 一 个 可 能 的 事件 系列 。 











动作 t | M-A | M-B | D-A | D-B 日 志 

十 <START T> 

READ(A,t) 8 8 8 8 

t ;= t*2 16 8 8 8 

WRITE(A,t) | 16 16 8 8 | <T,A,16> 

READ(B,t) 8 16 8 8 8 

t := 七 2 16 16 8 8 8 

WRITE(B,t) | 16 16 16 8 8 | <T, B,16> 

<COMMIT T> 
FLUSH LOG 
OUTPUT(A) | 16 16 16 16 8 








ouTPpuT(B) | 16} 16| 16| 16| 16 
图 17-7 动作 及 其 在 使 用 redo 日 志 时 的 日 志 项 


图 17-7 与 图 17-3 的 主要 区 别 如 下 。 首 先 ， 我们 注意 到 在 图 17-7 的 第 4 和 第 7 行 ， 反 映 修改 的 
日 志 记 录 具 有 A 和 B 的 新 值 ， 而 不 是 旧 值 。 其 次 ,我 们 看 到 <coMMIT TT> 记 录 出 现 较 早 ， 在 第 8 
步 。 然 后 日 志 被 刷新 ， 因 此 所 有 与 事务 7 的 更 新 相关 的 日 志 记录 出 现在 磁盘 上 。 只 有 等 到 这 时 ， 
4 和 8 的 新 值 才能 写 到 磁盘 。 紧 接着 在 第 10 和 11 步 给 出 了 立即 写 人 的 这 些 值 ， 而 实际 中 它们 的 
发 生 可 能 比 这 要 晚 得 多 。 口 


17.3.2 使 用 redo 日 志 的 恢复 

redo 规 则 RR 的 一 个 重要 推论 是 ， 只 要 日 志 没有 <coMMIT T> 记 录 ， 我 们 就 知道 事务 T 对 数 
据 库 所 做 的 更 新 都 没有 写 到 磁盘 上 。 因 此 ， 惰 复 时 对 未 完成 事务 的 处 理 就 可 以 像 它们 从 未 发 生 
过 似 的 。 然 而 ， 提 交 的 事务 存在 问题 ， 因 为 我 们 不 知道 它们 的 哪些 数据 库 改 变 已 经 写 到 磁盘 。 
幸运 的 是 ，redo 日 志 正好 有 我 们 需要 的 信息 : 新 值 ， 我 们 可 以 将 新 值 写 到 磁盘 而 不 管 它们 是 否 
已 经 在 磁盘 上 。 在 系统 裔 省 后 使 用 redo 日 志 恢 复 ， 我 们 需要 做 以 下 事情 。 

1. 确定 提交 的 事务 。 

2. 从 起 始 处 扫 措 日志。 对 遇 到 的 每 一 <7, X, v> 记 录 : 

(a) 如 果 7 是 未 提交 的 事务 ， 则 什么 也 不 做 。 

(b) 如 果 7 是 提交 的 事务 ， 则 为 数据 库 元 素 X 写 人 值 v。 

3. 对 每 个 未 完成 的 事务 T， 在 日 志 中 写 人 一 个 <ABORT 人 记录 并 刷新 日 志 。 
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Redo 动 作 的 顺序 

由 于 一 些 已 提交 事务 可 能 对 数据 库 的 同一 个 元 素 X 写 入 新 值 ， 因 此 在 用 redo 日 志 恢 复 过 程 
中 我 们 需 按 从 最 早 到 最 晓 的 顺序 扫描 日 志 。 这 样 X 最 终 的 值 将 是 最 后 被 写 入 的 值 ， 这 是 它 应 该 
的 值 。 类 似 地 ， 在 undo 恢 复 中 ,我 们 需 从 最 晚 到 最 旱地 扫描 日 志 ， 这 样 X 的 值 将 是 所 有 被 撤消 
事务 修改 前 的 值 。 

然而 ， 如 果 DBMS 强 制 操作 的 原子 性 ， 那 么 在 undo 日 志 中 我 们 不 希望 出 现 两 个 未 提交 
的 事务 ， 它 们 修改 了 数据 库 的 同一 个 元 素 。 相 反 ， 在 重 做 型 日 志 机 制 中 ， 我 们 关注 的 是 那 
些 已 提交 的 事务 ， 因 为 他 们 需要 被 重 做 。 有 两 个 已 提交 的 事务 ， 他 们 在 不 同 的 时 候 都 改变 
了 数据 库 中 的 同一 个 元 素 。 这 种 情形 是 非常 普遍 的 。 因 此 重 做 操作 的 顺序 一 般 是 比较 重要 
的 ， 而 当 采 用 了 恰当 的 并 发 控制 机 制 时 ， 撤 消 操作 的 顺序 就 可 能 不 重要 了 。 


例 17.7 ”让 我 们 考虑 图 17-7 中 的 日 志 ， 看 一 看 在 动作 序列 的 不 同步 又 之 后 发 生 故 障 时 恢复 
如 何 进行 。 

1. 如 果 故 障 发 生 在 第 9 步 后 的 任何 时 候 ， 那 么 <coMMIT  Z 记 录 已 被 刷新 到 磁盘 。 恢 复 系 
统 认定 7 是 一 个 提交 的 事务 。 当 向 前 扫描 日 志 时 ， 日 志 记 录 <T, A, 16> 和 <T, B, 16> 使 恢复 管理 
器 为 4 和 B8 写 人 值 16。 请 注意 ， 如 果 故 障 发 生 在 第 10 和 11 步 之 间 ， 那 么 写 4 是 充 余 的 ， 而 写 B 还 
未 发 生 ， 因 而 将 8 改变 为 16 是 恢复 数据 库 的 一 致 状态 所 必 和 需 的 。 如 果 故 障 发 生 在 第 11 步 以 后 ， 
那么 写 4 和 写 B 都 是 宛 余 的 ， 但 也 是 无 害 的 。 

2. 如 果 故 障 发 生 在 第 8 和 9 步 之 间 ， 那 么 尽管 <cOMMIT T> 记 录 写 人 了 日 志 ， 但 可 能 还 没有 
HERA (依赖 于 日 志 是 否 因 其 他 某 种 原因 而 刷新 )。 如 果 该 记录 已 到 达 磁盘 则 恢复 如 同情 
况 1 那 样 进行 ， 而 如 果 该 记录 没 能 到 达 磁 盘 ， 那 么 恢复 和 下 面 的 情况 3 一 样 。 

3. 如 果 故 障 发 生 在 第 8 步 以 前 ， 那 么 <coMMIT T> 记 录 肯 定 没有 到 达 磁 盘 。 因 此 ，7 被 看 做 一 
个 未 完成 的 事务 。 磁 盘 上 的 4 和 B 不 为 7 做 任何 改变 ， 而 最 后 一 条 <ABORT 了 记录 被 写 到 日 志 中 。 口 


17.3.3 redo 日 志 的 检查 点 

我 们 可 以 在 undo 日 志和 redo 日 志 中 择 和 人 检查 点 。 但 是 ，redo 日 志 提 出 了 一 个 新 问题 由 于 
提交 事务 所 做 的 修改 拷贝 到 磁盘 的 时 间 可 能 比 事务 提交 的 时 间 晚 得 多 ， 因 此 不 能 仅仅 考虑 在 我 
们 决定 创建 检查 点 时 活跃 的 事务 。 不 管 检查 点 是 静止 的 ( 不 允许 事务 开始 ) 还 是 非 静止 的 ,在 
检查 点 的 开始 和 结束 之 间 我 们 必须 采取 的 一 个 关键 动作 是 将 已 被 提交 事务 修改 但 还 未 写 到 磁盘 
AARETE 写 到 磁盘 。 要 做 到 这 样 ， 需 要 缓冲 区 管理 器 跟踪 哪些 缓冲 区 是 脏 的 ， 即 它们 

经 被 修改 但 还 没有 写 到 磁盘 。 还 需要 知道 哪个 事务 修改 了 哪个 缓冲 区 。 

另 一 方面 ， 我 们 不 需要 等 待 活 跃 事务 提交 或 中 止 就 能 完成 检查 点 ， 因 为 它们 无 论 如 何 都 不 
允许 在 那个 时 候 将 它们 的 页 写 到 磁盘 。 执 行 redo 日 志 的 非 静 止 检查 









<START 7 了 1 > 
点 的 步骤 如 下 : <T, A,5> 
1. 写 人 日 志 记 录 <START CKPT(T,, =, Td>, HAT), =, TÆ CT 
有 活跃 ( 即 未 提交 的 ) 事务 ， 并 刷新 日 志 。 <T;, B, 10> 
2. 将 START CKPT 记 录 写 人 月 志 时 所 有 提交 事务 已 经 写 到 缓冲 all (T2)> 
区 但 还 没有 写 到 磁盘 的 数据 库 元 素 写 到 磁盘 。 37 


3. 写 人 日 志 记 录 <END CKPT>， 并 刷新 日 志 。 <T3, D, 20> 
例 17.8 图 17-8 给 出 了 一 个 可 能 的 redo 日 志 ， 其 中 发 生 了 一 个 检 | SERN CHET 
查 点 。 当 我 们 开始 检查 点 时 ， 只 有 是 活路 的 ， 但 所 写 的 4 值 可 能 <COMMIT T;> 


已 经 到 达 磁 盘 。 如 果 没 有 ， 那 么 我 们 必须 在 检查 点 结束 前 将 4 拷贝 到 ”图 17-8 一 个 redo 日 志 
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磁盘 。 检 查 点 的 结尾 出 现在 几 个 其 他 的 事件 发 生 后 : 7 为 数据 库 元 素 C 写 人 一 个 值 ， 一 个 新 事 
务 T; 开 始 并 为 D 写 入 一 个 值 。 在 检查 点 结束 后 发 生 的 惟一 的 事情 是 T, 和 了 提交 。 口 


17.3.4 使 用 带 检查 点 的 redo 日 志 的 恢复 

正如 undo 日 志 那 样 ， 揪 入 表明 检查 点 开始 和 结束 的 记录 可 以 帮助 我 们 缩小 在 需要 恢复 时 检 
查 日 志 的 范围 。 根 据 最 后 一 个 检查 点 记录 是 START 还 是 END ， 有 两 种 不 同 的 情况 ， 这 也 和 undo 
日 志 一 样 。 

“首先 假设 在 崩溃 发 生前 日 志 中 的 最 后 一 条 检查 点 记录 是 <END cKPT>。 现 在 ， 我 们 知道 在 

对 应 的 <START CKPT (T1，…， Ti > 前 提交 的 事务 已 经 将 其 修改 写 到 了 磁盘 ， 因 此 我 们 不 

必 关 心 如 何 恢复 这 些 事务 的 影响 。 但 是 ，7 中 的 任 一 事务 或 检查 点 开始 后 启动 的 任 一 事务 

即使 已 经 提交 ， 都 仍 可 能 未 将 其 所 做 修改 转 到 磁盘 上 。 因 此 ， 我 们 必须 像 17.3.2 节 描述 的 

那样 进行 恢复 ， 但 可 以 只 关心 最 后 一 个 <START cKPT (T, …, Ti )> 中 提 到 的 事务 T 与 该 日 

志 记 录 在 日 志 中 出 现 后 开始 的 事务 。 在 搜索 日 志 时 ， 我 们 在 找到 最 早 的 <START Tilk 

后 就 不 必 继 续 向 后 看 。 但 请 注意 ， 这 些 START 记 录 可 能 出 现在 任意 多 个 检查 点 前 。 将 一 个 

事务 的 所 有 日 志 记 录 向 后 链接 在 一 起 可 以 帮助 我 们 找到 所 需 记录 ， 正 如 undo 日 志 中 那样 。 

* 现 在 ,假设 日 志 中 的 最 后 一 条 检查 点 记录 是 <START CKPT(T, … T )>。 我 们 不 能 确定 

在 此 检查 点 开始 前 提交 的 事务 是 否 已 经 将 其 修改 写 到 磁盘 上 。 因 此 ， 我 们 必须 搜索 到 前 
一 <END CKPT> 记 录 ， 找 到 与 之 匹配 的 <START CKPT($1,…, 9。h> 记 录 e ， 并 重 做 这 些 
已 经 提交 的 、 要 么 在 START CKPT 后 开始 要 人 么 在 8 中 的 事务 。 

例 17.9 ”重新 考虑 图 17-8 中 的 日 志 。 如 果 故 障 在 结束 时 发 生 ， 我 们 向 后 搜索 ， 找 到 <END 
CKPT> 记 录 。 于 是 我 们 知道 将 所 有 在 写 记 录 <START CKPT (To)> 后 开始 的 事务 或 者 出 现在 该 记 
RAR PHS CHIT.) 作为 重 做 的 候选 者 就 足够 了 。 因 此 ， 候 选集 合 是 { T, T) RIR 
到 了 记录 <COMMIT 7T;> 和 <CoMMIT 7T,>， 于 是 知道 它们 都 必须 重 做 。 我 们 向 后 搜索 日 志 直到 
<START 7T2> 记 录 ， 为 提交 的 事务 找到 更 新 记录 < T, B, 10>, <T, C, 15> 和 < Ts, D, 20>。 由 于 
我 们 不 知道 这 些 修 改 是 否 已 到 达 磁 盘 ， 因 此 分 别 为 B、C 和 九重 新 写 人 值 10、15 和 20。 

现在 ， 假 设 前 省 在 记录 <CCOMMIT T,> 和 <COMMIT TT> 之 间 发 生 。 恢 复 与 上 述 过 程 类 似 ， 
只 不 过 7T; 不 再 是 提交 的 事务 。 因 此 ， 其 修改 < Ts, D, 20> 不 能 被 重 做 ， 并且 在 恢复 中 不 对 DD 做 任 
何 改变 ， 尽 管 此 日 志 记录 处 于 被 检查 的 记录 范围 内 。 恢 复 后 我 们 也 要 在 日 志 中 写 人 一 条 
<ABORT 有 > 记录 。 

最 后 ， 假 设 骨 省 正好 在 <END CKPT> 记 录 前 发 生 。 原 则 上 ， 我 们 必须 向 后 搜索 到 倒数 第 二 
个 START CKPT 记 录 ， 并 得 到 其 活路 事务 列表 。 但 是 ， 这 种 情况 下 没有 前 一 检查 点 ， 因 而 我 们 
必须 一 直 走 到 日 志 的 开头 。 因 此 ， 我 们 确定 提交 的 事务 只 有 T!， 重 做 其 动作 < Ti, A, 5>， 并 在 
恢复 后 将 记录 <ABORT 7T,> 和 <ABORT > 写 人 日 志 中 。 口 


由 于 事务 可 能 在 儿 个 检查 点 是 活路 的 ， 在 <START CKPT (T, …, T)> 记 录 中 不 仅 包括 事务 的 
名 字 并 且 包 括 指向 事务 在 日 志 中 开始 的 地 方 的 指针 会 比较 方便 。 这 样 做 ， 我 们 就 知道 什么 时 候 
删除 日 志 中 较 早 的 部 分 是 安全 的 。 当 我 们 写 人 <END cKPT> 记 录 时 ， 就 会 知道 不 再 需要 向 后 查 
看 到 比 所 有 活路 事务 7 中 最 早 的 <START T; > 记录 更 早 的 日 志 记 录 。 因 此 ， 早 于 该 START 记 录 
的 所 有 记录 都 可 以 被 删除 。 
17.3.5 习题 

习题 17.3.1 给 出 习题 17.1.1 中 各 个 事务 ( 称 其 为 7) 的 rede 日 志 记录 ， 假 设 开 始 时 4 = 5 且 


9 一 个 小 的 技术 网 节 是 ， 由 于 上 次 的 故障 ， 有 的 sraRT cKPT 记 录 可 能 没有 匹配 的 <-END CKPT>。 这 就 是 我 们 
为 什么 不 能 只 找 前 一 START CKPT 记 录 、 而 要 先 找 <END CKPT> 然 后 再 找 前 一 START CKPT 的 原因 。 
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B= 10。 
习题 17.3.2 使 用 redo 日 志 ， 重 做 习题 17.2.2。 
习题 17.3.3 使 用 redo 日 志 ， 重 做 习题 17.2.4。 
习题 17.3.4 使 用 redo 日 志 ， 重 做 习题 17.2.5。 
习题 17.3.5 使 用 习题 17.2.7 的 数据 ， 对 该 习题 中 (a) 到 (e) HAW, AE. 
1) 何 时 能 写 人 <ENDCKPT> 记 录 ; IFA 
2) 对 每 一 个 可 能 发 生 故 障 的 时 刻 ， 为 了 找到 所 有 可 能 未 完成 的 事务 ， 我 们 需要 在 日 志 
中 向 后 看 多 远 。 请 考虑 <END CKPT> 记 录 在 崩溃 发 生 以 前 写作 和 未 写 入 的 两 种 情况 。 


17.4 undo/redo 日 志 





我 们 已 经 看 到 了 两 种 不 同 的 日 志方 式 ， 它 们 的 差别 在 于 当 数 据 库 元 素 被 修改 时 日 志 中 保存 
旧 值 还 是 新 值 。 它 们 各 有 其 缺陷 : 

"undo 日 志 要 求 数据 在 事务 结束 后 立即 写 到 磁盘 ， 可 能 增加 需要 进行 的 磁盘 IO 数 。 

。 男 一 方面 ，redo 日 志 要 求 我 们 在 事务 提交 和 日 志 记 录 刷 新 以 前 将 所 有 修改 过 的 块 保留 在 
缓冲 区 中 ， 可 能 增加 事务 需要 的 平均 缓冲 区 数 。 

“如 果 数 据 库 元 素 不 是 完整 的 块 或 块 集 ， 在 检查 点 过 程 中 undo 日 志和 rede 日 志 在 如 何 处 理 
缓冲 区 方面 都 存在 矛盾 。 例 如 ， 如 果 一 个 缓冲 区 中 包含 被 提交 的 事务 修改 过 的 数据 库 元 
素 4 和 同一 缓冲 区 中 被 尚未 将 其 CoMMIT 记 录 写 到 磁盘 的 事务 修改 过 的 数据 库 元 素 8， 那 
么 由 于 4 我 们 需要 将 缓冲 区 拷贝 到 磁盘 ， 但 将 规则 RI 运用 到 B， 又 不 能 这 样 做 。 

现在 要 看 一 种 称 为 undo/redo 日 志 的 日 志 类 型 ， 这 一 日 志 类 型 通过 付出 在 日 志 中 维护 更 多 信息 的 
代价 ， 提 供 了 动作 顺序 上 的 更 大 灵活 性 。 
17.4.1 undo/redo 规 则 

undo/redo 日 志 与 其 他 日 志 类 型 有 相同 种 类 的 日 志 记录 ， 只 有 一 个 例外 。 当 数据 库 元 素 修改 
其 值 时 我 们 写 入 的 更 新 日 志 记 录 有 四 个 组 成 部 分 。 记 录 <T, X, v, w> 的 含义 是 ,事务 7 改变 了 数据 
库 元 素 X 的 值 ， 其 改 前 值 为 x， 新 值 为 wv。undo/redo 日 志 系统 必须 遵循 的 约束 可 用 如 下 规则 概括 ， 

UR: 在 由 于 某 个 事务 7 所 做 的 改变 而 修改 磁盘 上 的 数据 库 元 素 X 前 ， 更 新 记录 <T, X, v, w> 

必须 已 写 到 磁盘 上 。 

undo/redo 日 志 的 规则 UR 因而 只 实施 undo 日 志和 redo 日 志 都 有 的 约束 。 具 体 地 说 ，<COMMIT 

7> 日 志 记录 可 以 在 磁盘 上 任何 数据 库 元 素 的 修改 之 前 或 之 后 。 

例 17.10 ”图 17-9 是 我 们 最 后 在 例 17.6 中 看 到 的 事务 7 的 一 个 变 体 ， 其 中 与 事务 相关 的 动作 









READ(A,t) 
t i= t*2 
WRITE(A,t) 
READ(B,t) 
t := t*2 

WRITE(B,t) 
FLUSH LOG 
OUTPUT (A) 







<T, A, 8, 16> 







<T, B,8, 16> 








<COMMIT T> 





OUTPUT (B) 


图 17-9 动作 及 使 用 undo/redo 日 志 的 日 志 项 的 一 个 可 能 序列 
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顺序 发 生 了 变化 。 请 注意 ， 更 新 日 志 记录 中 现在 同时 包括 4 和 8 的 旧 值 和 新 值 。 在 这 个 序列 中 ， 
我 们 在 将 数据 库 元 素 4 和 8 输出 到 磁盘 之 间 写 人 日 志 记 录 <COMMIT 7>。 第 10 步 也 可 以 出 现在 第 
9 步 前 或 第 11 步 后 。 口 


17.4.2 使 用 undo/redo 日 志 的 恢复 

当 需 要 用 undo/redo 日 志 恢 复 时 ， 我 们 拥有 的 信息 既 允 许 通过 恢复 事务 T 所 改变 的 数据 库 元 
素 的 旧 值 来 撤销 事务 7Z， 也 人 允许 通过 重复 7 所 做 的 改变 来 重 做 7T。undo/redo 日 志 的 恢复 策略 是 ; 

1. 按照 从 前 往 后 的 顺序 ， 重 做 所 有 已 提交 的 事务 ; 并 且 

2. 按照 从 后 往 前 的 顺序 ， 撤 销 所 有 未 提交 的 事务 。 
请 注意 这 两 件 事 都 做 对 我 们 来 说 是 必要 的 。 由 于 undo/redo 日 志 在 COMMIT 日 志 记 录 与 数据 库 修 
改 本 身 拷贝 到 磁盘 的 相对 顺序 方面 提供 的 灵活 性 ， 我 们 既 可 以 让 一 个 提交 事务 的 部 分 或 全 部 修 
改 不 在 磁盘 上 ， 也 可 以 让 一 个 未 提交 事务 的 部 分 或 全 部 修改 在 磁盘 上 。 

例 17.11 考虑 图 17-9 中 的 动作 序列 。 下 面 是 假设 崩溃 发 生 在 序列 中 不 同 的 点 时 进行 恢复 的 
不 同方 式 。 

1. 假设 毅 省 发 生 在 <COMMIT 7T> 记 录 刷 新 到 磁盘 后 。 这 时 7 被 认为 是 提交 的 事务 。 我 们 为 
4 和 8B 往 磁盘 上 写 人 值 16。 由 于 事件 实际 的 顺序 ，4 已 经 具有 值 16， 而 3 可 能 没有 ， 这 决定 于 衣 
省 发 生 在 第 11 步 之 前 还 是 之 后 。 

2. 如 果 骨 省 在 <CoMMIT TT> 记 录 到 达 磁 盘 前 发 生 ， 则 7 被 作为 未 完成 的 事务 。A 和 8 原来 的 
值 被 写 到 磁盘 ， 两 种 情况 下 这 个 值 都 是 8。 如 果 般 溃 发 生 在 第 9 和 10 步 之 间 ， 则 4 在 磁盘 上 


推迟 提交 的 一 个 问题 
和 undo 日 志 一 样 ， 使 用 uvdo/redo 日 志 的 系统 中 可 能 出 现 这 样 的 行为 ; 事务 在 用 户 看 
来 已 经 提交 ( 例如， 他 们 在 网 上 预订 了 一 个 航班 座位 然后 断 开 连 接 )， 但 由 于 <COMMIT 


T> 记 录 尚 未 刷新 到 磁盘 ， 后 来 的 一 次 崩溃 使 该 事务 被 撤销 而 不 是 重 做 。 如 果 这 样 的 可 能 
性 是 一 个 问题 ， 我 们 建议 为 uvdo/redo 日 志 使 用 一 条 附加 的 规则 ; 

UR,A<COMMIT T> 记 录 一 旦 出 现在 日 志 中 就 必须 被 刷新 到 磁盘 上 。 
例如 ， 在 图 17-9 中 我 们 将 在 第 10 步 后 加 入 FLUSH LOG. 





的 值 是 16， 将 其 恢复 到 值 8 是 必要 的 。 在 这 个 例子 中 ，8 的 值 不 需要 撤销 ， 而 如 果 骨 省 发 生 在 第 
”9 步 前 ， 则 4 的 值 也 不 需要 撤销 。 然 而 ， 通 常 我 们 不 能 确定 恢复 是 否 必要 ， 因 此 一 般 执 行 撤销 操 
作 。 口 


17.4.3 undo/redo 日 志 的 检查 点 

undo/redo 日 志 的 非 静止 检查 点 在 某 种 程度 上 比 其 他 日 志方 式 简单 一 些 。 我 们 只 需要 做 如 下 
事情 : 

1. 号 入 日 志 记 录 <START CKPT(T,, … TD>， 其 中 7 …, 7 是 所 有 的 活路 事务， 并 刷新 日 志 。 

2. 将 所 有 脏 缓冲 区 写 到 磁盘 ， 脏 缓冲 区 即 包 含 一 个 或 多 个 修改 过 的 数据 库 元 素 的 缓冲 区 。 
和 redo 日 志 不 同 的 是 ， 我 们 刷新 所 有 缓冲 区 ， 而 不 是 仅 刷 新 那些 被 提交 事务 写 过 的 缓冲 区 。 

3. 写 人 日 志 记 录 <END CKPT> 并 刷新 日 志 。 

关于 第 (2) 点 需要 注意 的 是 ， 由 于 undo/redo 日 志 在 数据 何 时 到 达 磁 盘 方面 提供 的 灵活 性 ， 
我 们 可 以 容忍 将 未 完成 事务 写 人 的 数据 写 到 磁盘 。 所 以 ， 我 们 能 够 容忍 小 于 完整 块 的 数据 库 元 
素 ， 并 因此 可 以 共享 缓冲 区 。 我 们 必须 对 事务 做 出 的 惟一 要 求 是 : 
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“事务 在 不 确定 其 不 会 中 止 之 前 不 能 写 人 任何 值 (甚至 连 写 到 主 存 缓冲 区 也 不 允许 )。 
正如 我 们 将 在 19.1 节 看 到 的 那样 ， 为 了 避免 事务 间 不 一 致 的 相互 影响 ， 这 一 约束 无 论 如 何 
都 几乎 是 必需 的 。 请 注意 ， 在 redo 日 志 下 ， 上 面 的 条 件 并 不 充分 ， 因 为 即使 写 人 8 的 事务 一 定 会 












事务 在 恢复 中 的 奇怪 行为 

读者 可 能 已 经 注意 到 ， 我 们 并 没有 指明 在 使 用 undo/redo 日 志 恢 复 时 是 先 撤销 还 是 先 
重 做 。 事 实 上 ,不管 先 搬 销 还 是 先 重 做 ， 我 们 都 会 面临 如 下 情况 :提交 并 被 重 做 的 事务 T 
读 取 值 X， 该 值 是 由 某 个 未 提交 并 被 撤销 的 事务 U 写 入 的 。 问 题 不 在 于 我 们 先 重 做 ， 使 X 
具有 U 以 前 的 值 ， 还 是 先 撤销 ， 使 X 具 有 由 T 写 入 的 值 。 不 管 哪 种 方式 ， 这 种 情况 者 没有 意 
义 ， 因 为 数据 库 的 最 终 状态 不 对 应 于 任何 原子 的 事务 序列 的 结果 。 

在 实际 中 ，DBMS 必 须要 做 的 不 仅仅 是 把 改变 记 入 日 志 中 。 它 必须 通过 某 些 机 制 保证 
这 样 的 情况 不 会 出 现 。 第 18 章 中 讨论 隔离 像 T 和 UU 这 样 的 事务 的 方法 ， 使 它们 通过 数据 库 
元 素 X 产 生 的 相互 影响 不 会 发 生 。 在 19.1 节 中 ， 我 们 明确 地 讨论 防止 7 读 “ 脏 ” 值 X ( 即 尚 
未 提交 的 值 ) 这 样 的 情况 发 生 的 方法 。 











提交 ， 规 则 R, 也 会 要 求 事务 的 CoMMIT 记 录 在 8 写 到 磁盘 以 前 写 到 磁盘 。 
例 17.12 图 17-10 给 出 了 类 似 于 图 17-8 中 redo 日 志 的 一 个 undo/redo 日 志 。 我们 仅仅 改变 了 更 
新 记录 ,不仅 给 了 它们 新 值 ， 还 给 了 旧 值 。 为 简单 起 见 ， 我 们 假设 各 种 情况 下 虽 值 比 新 值 小 1。 
和 例 17.8 中 一 样 ，7 被 确定 为 检查 点 开始 时 惟一 的 提交 事务 。 


由 于 这 一 日 志 是 undo/redo 日 志 ,， 有 可 能 7 的 新 8 值 10 已 写 到 磁盘 ， | Ín A450 
而 这 在 redo 日 志 中 是 不 可 能 的 。 但 是 ， 这 一 磁盘 写 是 否 已 经 发 生 Zoo o> 
却 是 无 关 紧要 的 。 在 检查 点 过 程 中 ， 如 果 B 的 新 值 还 不 在 磁盘 上 ， <T», B,9, 10> 
则 我 们 肯定 会 将 6 刷新 到 磁盘 上 ， 因 为 我 们 刷新 所 有 的 及 缓冲 区 。 Seis 
同样 ， 如 果 由 提交 的 事务 7 写 入 的 4 的 新 值 还 不 在 磁盘 上 ， 我 们 <START Ts> 
将 刷新 4。 <i CAPT 
如 果 崩 溃 在 这 一 事件 系列 的 未 尾 发 生 ， 则 密 和 7 被 确定 为 提 <COMMIT T> 





交 的 事务 。 事 务 7 在 检查 点 前 。 由 于 在 日 志 中 发 现 <END CKPTS <COMMIT 73> 
记录 ,我 们 可 以 正确 地 假设 7 已 经 完成 并 已 将 其 改变 写 到 磁盘 上 。 ”图 17-10 一 个 undofredo 日 志 
因此 我 们 重 做 7 和 5， 就 像 在 例 17.8 中 那样 ， 并 和 忽略 TI。 但 是 ， 当 重 做 像 T, 这 样 的 事务 时 ， 我 
们 并 不 需要 查看 比 <START CKPT (To)> 还 早 的 记录 ， 即 使 7 在 那 时 是 活跃 的 ， 因 为 我 们 知道 也 
在 检查 点 开始 前 的 改变 在 检查 点 过 程 中 已 经 被 刷新 到 磁盘 。 

再 举 一 例 ， 假 设 前 省 正好 在 <CoOMMIT T,> 记 录 写 到 磁盘 前 发 生 。 那 么 我 们 确定 元 是 提交 
的 而 Ts 是 未 提交 的 。 通 过 将 磁盘 上 的 C 设 为 15 来 重 做 T; 没有 必要 将 8 设 为 10， 因 为 我 们 知道 这 
一 改变 在 <END ckPT> 前 已 到 达 磁 盘 。 但 是 ， 和 redo 日 志 的 情况 不 一 样 ， 我 们 还 要 撤销 也 
就 是 说 ， 我 们 将 磁盘 上 的 D 设 为 19。 如 果 刀 在 检查 点 开始 时 是 活跃 的 ， 我 们 将 不 得 不 查看 比 
START-CKPT 记 录 更 早 的 记录 ， 以 确定 妨 是 否 有 更 多 的 动作 已 到 达 磁 盘 ， 因 而 需要 撤销 。 oO 


17.4.4 习题 
习题 17.4.1 ”给 出 习题 17.1.1 中 各 个 事务 〈 称 其 为 了) 的 undo/redo 日 志 记 录 ， 假 设 开 始 时 A 
= 5HB=10, 


习题 17.4.2 ”对 每 一 个 表示 事务 T 动 作 的 日 志 记录 序列 , 说明 所 有 合乎 undo/redo 日 志 规 则 
的 事件 系列 ， 其 中 我 们 关心 的 事件 是 将 包含 数据 库 元 素 的 块 以 及 包含 更 新 和 提交 记录 的 日 
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志 块 写 到 磁盘 。 可 以 假定 日 志 记 录 按 下 列 所 示 顺 序 写 磁盘 ; 即 不 可 能 在 前 一 记录 还 没有 写 
到 磁盘 时 将 一 记录 写 到 磁盘 。 
* a) <START T>;<T, A, 10, 11>; <T, B,20,21>; <COMMIT T>; 
b) <START T>; <T, A, 10, 21>; <T, B, 20, 21>; <T, C, 30, 31>; <COMMIT T>; 
习题 17.4.3 下面 是 两 个 事务 7 和 U0 的 一 系列 日 志 记 录 : <START T>; <T, A, 10, 11>; 
<START U>; <U, B, 20, 21>; <T, C, 30, 31>; <U, D, 40, 41>; <COMMIT U>; <T, E, 50, 51>; 
<COMMIT T>。 描 述 恢复 管理 器 的 行为 ， 包括 对 磁盘 和 日 志 所 做 的 改变 ， 假 设 故 障 发 生 ， 
且 出 现在 磁盘 上 的 最 后 一 条 日 志 记 录 如 下 : 
a) <START U> 
* b)<COMMIT U> 
c) <T, E, 50, 51> 
d) <COMMIT T> 
习题 17.4.4 ”对 于 习题 17.4.3 描 述 的 每 种 情况 ，T 和 U 所 写 的 哪些 值 必 然 出 现在 磁盘 上 ? 哪 
些 值 可 能 出 现在 磁盘 上 ? 
习题 17.4.5 考虑 如 下 日 志 记录 序列 : <START 5>; <S, A, 60, 61>; <COMMIT S>; <START 
T>; <T, A, 61, 62>; <START U>; <U, B, 20, 21>; <T, C, 30, 31>; <START V>; <U, D, 40, 
41>; <V, F, 70, 71>; <COMMIT U>; <T, E, 50, 51>; <COMMIT T>; <V, B, 21, 22>; <COMMIT 
V>. BERIE (EF) 写 入 如 下 的 一 条 日 志 记 录 中 后 立即 开始 一 个 非 静 止 检查 点 : 
a) <S, A, 60, 61> 
* b) <T, A, 61, 62> 
c) <U, B, 20, 21> 
d) <U, D, 40, 41> 
e) <T, E, 50, 51> 
对 其 中 的 每 一 个 , 说明: 
1) 何 时 写 人 <END CKPT> 记 录 ， 并 且 
2) 对 每 一 个 可 能 发 生 故 障 的 时 刻 ， 为 了 找到 所 有 可 能 未 完成 的 事务 ， 我 们 需要 在 日 志 
中 回溯 多 远 。 请 考虑 <END CKPT> 记 录 在 月 溃 发 生 以 前 写 人 和 未 写 人 的 两 种 情况 。 


17.5 防备 介质 故障 


日 志 可 以 帮助 我 们 防备 系统 故障 ， 系 统 故障 发 生 时 磁盘 上 不 会 丢失 任何 东西 ， 而 主 存 中 的 
临时 数据 会 丢失 。 但 是 ， 正 如 我 们 在 17.1.1 节 讨论 的 那样 ， 更 严重 的 故障 包括 一 个 或 多 个 磁盘 
的 丢失 。 原 则 上 讲 ， 如 果 以 下 条 件 成 立 ， 我 们 可 以 通过 日 志 重 建 数据 库 。 

a) 日 志 所 在 的 磁盘 不 同 于 存放 数据 的 磁盘 ; 

b) 日 志 在 检查 点 以 后 永远 不 会 被 丢弃 ; 并 且 

c) 日 志 是 redo 或 undo/redo 类 型 ， 因 而 新 值 被 存储 在 日 志 中 。 

但 是 ， 正 如 我 们 提 到 的 那样 ， 日 志 的 增长 通常 比 数据 库 快 ， 所 以 永远 保存 日 志 是 不 现实 的 。 
17.5.1 备份 

为 了 防止 介质 故障 ， 我 们 采取 一 种 涉及 备份 (archive ) 的 解决 方法 ， 即 维护 与 数据 库 本 身 
分 离 的 一 个 数据 库 拷贝 。 如 果 有 可 能 暂时 关闭 数据 库 ， 我 们 可 以 在 某 种 存储 介质 〈 如 磁带 或 光 
R) 上 创建 一 个 备份 拷贝 ， 并 将 它们 存放 在 远离 数据 库 的 某 个 安全 的 地 方 。 备 份 保存 数据 库 在 
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该 时 刻 的 状态 ， 而 当 介质 故 麻 发 生 时 ， 数 据 库 就 可 以 恢复 到 该 时 刻 的 状态 。 

要 前 进 到 一 个 更 近 的 状态 ,我们 可 以 使 用 日 志 ， 前 提 是 备份 拷贝 以 来 的 日 志 得 到 保存 并 且 
日 志 自身 在 故障 之 后 仍 存在 。 为 了 防止 日 志 的 丢失 ， 我 们 可 以 在 日 志 几 乎 刚刚 创建 时 就 将 它 的 
一 个 拷贝 传送 到 与 备份 一 样 的 远程 节点 。 那 么 ， 如 果 日 志 与 数据 都 丢失 ， 我 们 就 可 以 使 用 备份 
和 远程 存储 的 日 志 进 行 恢复 ， 至 少 恢复 到 日 志 最 后 被 传送 到 远程 节点 的 那 一 时 刻 。 

由 于 当 数 据 库 规模 很 大 时 建立 备份 是 一 个 宛 长 的 过 程 ， 我 们 通常 尽量 避免 在 每 个 备份 步骤 






为 什么 不 是 仅仅 备份 日 志 ? 

我 们 可 能 会 对 备份 的 必要 性 提出 疑问 ， 因 为 如 果 我 们 不 想 停滞 在 上 次 做 备份 时 的 数 
据 库 状 态 ， 那 么 无 论 如何 我 们 都 要 在 安全 的 地 方 备份 日 志 。 虽 然 不 太 明显 ， 答 案 在 于 大 
型 数据 库 变化 的 典型 速率 。 尽 管 一 天 中 数据 库 只 有 很 少 一 部 分 会 发 生变 化 ， 但 一 年 中 的 
改变 会 比 数 据 库 自身 大 得 多 ， 而 每 个 变化 都 需要 在 日 志 中 记录 。 如 果 我 们 从 不 做 备份 ， 
那么 日 志 永远 也 不 能 被 截 短 ， 而 存储 日 志 的 开销 很 快 就 会 超过 存储 数据 库 持 贝 的 开销 。 


中 都 要 拷贝 整个 数据 库 。 因 此 ， 区 别 两 个 级 别 的 备份 

1. 完全 转 储 ， 这 时 需要 拷贝 整个 数据 库 。 

2. 增 量 转 储 ， 这 时 只 需要 拷贝 上 一 次 完全 转 储 或 增 量 转 储 后 改变 的 那些 数据 库 元 素 。 

也 可 以 有 多 个 级 别 的 转 储 ， 其 中 完全 转 储 被 认为 是 “0 级 ” 转 储 ， 而 “i 级 ” 转 储 拷贝 上 次 在 ;级 
或 更 低级 别 转 储 以 来 改变 过 的 所 有 东西 。 

我 们 可 以 用 一 个 完全 转 储 及 其 后 续 的 增 量 转 储 来 恢复 数据 库 ， 其 过 程 与 redo 或 undo/redo 日 
志 用 来 修复 因 系统 故障 所 带 来 的 损害 的 方式 非常 相似 。 我 们 将 完全 转 储 拷贝 回 数据 库 ， 然 后 以 
从 前 往 后 的 顺序 ， 做 后 续 增 量 转 储 所 记录 的 改变 。 由 于 增 量 转 储 一 般 只 包括 上 次 转 储 以 来 改变 
的 少量 数据 ， 它 们 占据 的 空间 比 完全 转 储 少 ， 做 起 来 也 更 快 。 

17.5.2 ” 非 静止 转 储 

有 关 17.5.1 节 中 简单 介绍 的 备份 的 问题 在 于 ， 大 多 数 数据 库 不 能 在 做 备份 拷贝 所 需要 的 一 
段 时 间 (可 能 是 几 个 小 时 ) 内 关闭 。 因 此 ， 我们 需要 考虑 非 静 止 转 储 ， 它 与 非 静 止 检查 点 类 似 。 
请 回忆 一 下 , 非 静止 检查 点 试图 在 磁盘 上 建立 数据 库 在 检查 点 开始 时 (近似 ) 状态 的 一 个 拷贝。 
我 们 可 以 依赖 于 检查 点 附近 一 段 时 间 内 的 很 小 一 部 分 日 志 ， 弥 补 和 该 状态 之 间 的 任何 偏差 ， 而 
偏差 的 存在 是 由 于 这 样 一 个 事实 : 在 检查 点 过 程 中 ， 新 事务 可 能 开始 并 写 磁盘 。 

类 似 地 ， 非 静止 转 储 试图 建立 转 储 开始 时 数据 库 的 一 个 拷贝 ， 而 在 转 储 进行 的 几 分 钟 甚至 
几 小 时 中 数据 库 活动 可 能 改变 磁盘 上 的 许多 数据 库 元 素 。 如 果 需 要 从 备份 中 恢复 数据 库 ， 在 转 
储 过 程 中 记录 的 日 志 项 可 以 用 来 整理 数据 ,使 数据 库 到 达 一 个 一 致 的 状态 。 二 者 的 类 比如 图 
17-11 所 示 。 

非 静 止 转 储 按 某 种 固定 的 顺序 拷贝 数据 库 元 素 ， 有 可 能 正好 在 这 些 元 素 被 执行 中 的 事务 改 
变 时 。 其 结果 是 ， 拷 贝 到 备份 中 的 数据 库 元 素 可 能 是 也 可 能 不 是 转 储 开始 时 的 值 。 只 要 在 转 储 
持续 过 程 中 的 日 志 得 到 保留 ， 这 样 的 差异 可 以 通过 日 志 来 纠正 。 

例 17.13 举 一 个 非常 简单 的 例子 ,假设 我 们 的 数据 库 由 4、B、C 和 DD 四 个 元 素 构成 ， 当 转 
储 开始 时 它们 分 别 具 有 1 ~ 4 这 几 个 值 。 在 转 储 过 程 中 ，A 改 变 为 5，C 改 变 为 6， 而 8 改变 为 7。 
但 是 ， 数 据 库 元 素 的 拷贝 是 按 顺 序 的 ， 而 发 生 的 事件 序列 如 图 17-12 所 示 。 那 么 尽管 数据 库 在 
转 储 开 始 时 具有 值 (1，2，3，4 )， 而 数据 库 在 转 储 结束 时 具有 值 (5，7，6，4 )， 但 是 在 备份 
中 数据 库 拷贝 具有 值 (1，2，6，4 )， 这 是 在 转 储 过 程 中 任何 时 候 都 不 存在 的 数据 库 状 态 。 口 







RRM TR 


更 详细 地 讲 ， 建 立 备 份 的 过 程 可 以 划分 为 以 下 
步骤 。 我 们 假设 日 志方 式 是 redo 或 undo/redo 日 志 ; 
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而 undo 日 志 不 适合 与 备份 一 起 使 用 。 检查 点 将 数据 从 主 存 
1. 写 人 日 志 记 录 <START DUMP>。 送 到 磁盘 ; 日 志 使 得 911 
2. 根据 采用 的 日 志方 式 执行 一 个 适当 的 检查 点 。 能 从 系统 故障 中 恢复 
3. 根据 需要 执行 完全 转 储 或 增 量 转 储 ， 确 定数 

据 的 拷贝 已 经 到 达 安 全 的 远程 节点 。 
4. 确定 足够 的 日 志 已 经 拷贝 到 安全 的 远程 节 转 储 将 数据 从 磁盘 送 到 备份 

至 少 保证 第 2 项 中 的 检查 点 以 前 及 包括 该 检查 备份 加 上 日 志 使 得 能 从 介质 

renin 质 故 障 后 仍 能 存在 。 故障 中 恢复 
5. 写 人 日 志 记 录 <END DUMP>。 

在 转 储 结束 后 ， 抛 弃 上 述 第 2 项 所 进行 的 检查 点 的 

前 一 个 检查 点 开始 以 前 的 日 志 是 安全 的 。 
例 17.14 ”假设 对 例 17.13 中 简单 的 数据 库 所 做 。 RO 

的 改变 由 事务 T,( 写 4 和 B ) AT, (SC) 引起 ， 而 图 17-11 检查 点 与 转 储 的 类 比 


它们 在 转 储 开始 时 是 活跃 的 。 图 17-13 给 出 了 转 储 
过 程 中 事件 的 一 个 可 能 的 undo/redo 日 志 。 

请 注意 ,我 们 没有 表示 了 提交 。 事 务 在 转 储 进行 的 整个 过 
程 中 保持 活跃 并 不 是 通常 的 情况 ,但 这 并 不 影响 我 们 下 面 要 讨 
论 的 恢复 机 制 的 正确 性 。 口 


17.5.3 使 用 备份 和 日 志 的 恢复 
假设 发 生 了 介质 故障 ， 并 且 我 们 要 通过 此 前 已 到 达 安 全 的 
远程 节点 、 在 崩溃 中 未 丢失 的 日 志和 最 近 的 备份 重建 数据 库 。 
我 们 执行 下 列 步骤 ， 
1. 根据 备份 恢复 数据 库 。 
(a) 找到 最 近 的 完全 转 储 ， 并 根据 它 来 恢复 数据 库 〈 即将 
备份 拷贝 到 数据 库 )。 
(b) 如 果 有 后 续 的 增 量 转 储 ， 按 照 从 前 往 后 的 顺序 ， 根 
据 各 个 增 量 转 储 来 修改 数据 库 。 
2. 用 保留 下 来 的 日 志 修改 数据 库 。 使 用 适合 于 所 用 日 志 
式 的 恢复 机 制 。 
例 17.15 假设 在 例 17.14 所 示 的 转 储 完成 后 发 生 了 介质 故 





终 17-12 非 静 止 转 储 中 的 事件 


<START DUMP > 
<START CKPT ( 们 ,人 2)> 
<T, A,1,5> 

<T, C,3,6> 


<COMMIT To> 
<T\, B,2,7> 
<END CKPT> 
Dump completes 
<END DUMP> 





图 17-13 转 储 中 记载 的 日 志 


障 ， 而 图 17-13 所 示 日 志 得 以 保存 。 为 了 让 过 程 更 有 意思 一 些 , 假设 留 下 来 的 部 分 日 志 中 尽管 
如 该 图 中 所 示 包 括 <COMMIT 72> 记 录 ， 但 不 包括 <COMMIT Ti it. 数据 库 首先 局 复 到 备份 
中 的 值 ， 即 对 数据 库 元 素 A4、B、C 和 DD 来 说 ,分 别 是 (1, 2, 6, 4) 

现在 ， 我 们 必须 查看 日 志 。 由 于 也 已 完成 ， 我 们 重 做 将 C 置 为 6 的 步 又。 在 这 个 例子 中 ，C 


已 经 具有 值 6， 但 有 可 能 : . 
a) C 的 备份 在 ?改变 C 以 前 产生 ; 或 者 


b) 备份 实际 捕获 的 是 C 的 一 个 更 靠 后 的 值 ， 而 该 值 可 能 是 也 可 能 不 是 由 一 个 提交 记录 得 以 
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保留 的 事务 所 写 人 人。 如 果 该 事务 提交 ， 则 后 面 的 恢复 中 C 将 被 恢复 为 在 备份 中 找到 的 值 。 

由 于 假设 Ti 没有 coMMIT 记 录 ， 我 们 必须 撤销 T1。 使 用 TT 的 日 志 记 录 ， 我 们 确定 4 必须 被 恢 
复 为 值 1, 而 8 必须 被 恢复 为 值 2。 在 备份 中 它们 碰巧 具有 这 些 值 ， 但 实际 的 备份 值 可 能 由 于 修改 
后 的 4 和 /或 B 被 包括 在 备份 中 而 不 同 。 口 


17.5.4 习题 
习题 17.5.1 如 果 在 例 17.14 和 例 17.15 中 使 用 的 是 redo 日 志 而 不 是 undo/redo 日 志 ， 那 么 : 
a) 日 志 会 是 怎样 的 ? 
*! b) 如 果 我 们 需要 使 用 备份 以 及 这 一 日 志 恢 复 ，T 未 提交 的 结果 是 什么 ? 
c) 恢复 后 数据 库 的 状态 是 什么 ? 


17.6 小 结 


。 事 务 管 理 : 事务 管理 器 的 两 个 主要 任务 是 通过 日 志保 证 数据 库 动作 的 可 恢复 性 ， 以 及 通 
过 调度 器 保证 事务 正确 的 并 发 行为 (本章 未 讨论 )。 

HEELE: 数据 库 划 分 为 元 素 ， 通常 是 磁盘 块 ， 但 也 可 以 是 元 组 、 类 外 延 或 者 其 他 的 
许多 单位 。 数 据 库 元 素 是 日 志和 调度 的 单位 。 

“日 志 : 事务 的 每 个 重要 动作 ( 开始 、 改 变数 据 库 元 素 、 提 交 或 中 止 ) 的 一 条 记录 被 存储 
在 日 志 中 。 日 志 在 某 个 时 候 必须 被 备份 到 磁盘 上 ， 这 一 时 刻 同 对 应 的 数据 库 改 变 转移 到 
磁盘 上 的 时 刻 相关 ， 但 依赖 于 所 采用 的 日 志方 式 。 

。 恢 复 ， 当 系统 崩溃 发 生 时 ， 日 志 被 用 来 修复 数据 库 ， 将 其 恢复 到 一 个 一 致 的 状态 

“日 志方 式 : 日 志 的 三 种 重要 方式 是 undo、redo 和 undo/redo， 其 命名 根据 恢复 时 它们 可 以 
进行 恢复 的 方式 。 

“undo 日 志 : 每 当 数据 库 元 素 被 修改 时 ， 这 种 方式 只 在 日 志 中 记录 旧 值 。 使 用 undo 日 志 ， 
数据 库 元 素 的 新 值 必须 在 关于 该 改变 的 日 志 记录 到 达 磁 盘 后 、 并 且 在 做 出 这 一 改变 的 事 
务 的 提交 记录 到 达 磁 盘 前 写 到 磁盘 。 恢 复 通 过 为 每 个 未 提交 事务 恢复 旧 值 来 完成 。 

"Tedo 日 志 : 这 里 ， 只 有 数据 库 元 素 的 新 值 被 记录 在 日 志 中 。 采 用 这 种 日 志 形 式 ， 数 据 库 
元 素 的 值 只 有 在 这 一 改变 的 日 志 记录 与 其 事务 的 提交 记录 都 已 到 达 磁 盘 后 才能 写 到 磁盘 。 
恢复 要 做 的 是 为 每 个 提交 的 事务 重新 写 和 人 新 值 。 

“undo/redo 日 志 : 在 这 种 方式 中 ， 旧 值 和 新 值 都 被 记录 在 日 志 中 。undo/redo 日 志 比 其 他 方 
式 更 灵活 ， 因 为 它 只 要 求 关于 改变 的 日 志 记 录 比 改变 自身 先 出 现在 磁盘 上 。 对 于 提交 记 
录 何 时 出 现 并 没有 要 求 。 恢 复 通过 重 做 提交 的 事务 并 撤销 未 提交 的 事务 来 进行 。 

“检查 点 : 由 于 当 需 要 进行 恢复 时 ， 原 则 上 所 有 的 方式 都 需要 从 头 查看 整个 日 志 ，DBMS 
必须 偶尔 对 日 志 做 检查 点 ， 以 保证 检查 点 以 前 的 日 志 记 录 在 恢复 中 不 再 需要 。 因 此 , 昌 
的 日 志 记 录 最 终 可 以 被 丢弃 ， 而 其 磁盘 空间 也 可 以 被 重用 。 

。 非 静止 检查 点 : 为 了 避免 做 检查 点 时 关闭 系统 ， 与 各 种 日 志方 式 相关 的 技术 使 检查 点 可 
以 在 系统 运作 且 数 据 库 改变 发 生 时 进行 。 惟一 的 代价 是 恢复 时 非 静止 检查 点 前 的 某 些 日 
志 记 录 可 能 需要 检查 。 

“备份 : 日 志 防 止 仅 涉及 主 存 丢失 的 系统 故障 ， 而 防止 磁盘 内 容 丢失 的 故障 有 必要 使 用 备 
份 。 备 份 是 在 安全 的 地 方 存储 的 数据 库 拷贝 。 

“ 增 量 备份 : 与 周期 性 地 将 整个 数据 库 拷贝 到 备份 中 相反 ， 一 个 完整 备份 之 后 可 以 跟着 几 
个 增 量 备 份 ， 其 中 内 “有 改变 的 数据 被 拷贝 到 到 备份 中 。 








ERARIK 585 





。 非 静止 备份 : 在 数据 库 运 作 中 建立 数据 备份 的 技术 是 存在 的 。 它 们 涉及 记载 备份 开始 和 
结束 的 日 志 记录 ， 以 及 在 备份 时 为 日 志 执 行 一 个 检查 点 。 

“从 介质 故障 中 恢复 : 当 磁 盘 丢 失 时 可 以 通过 如 下 过 程 恢复 ， 首 先 用 数据 库 的 一 个 完整 备 
份 恢复 ， 然 后 根据 后 续 的 增 量 备份 进行 修改 ， 最 后 通过 使 用 日 志 的 一 个 备份 拷贝 恢复 到 
某 个 一 致 的 数据 库 状 态 。 
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第 18 章 并 发 控制 


事务 之 间 的 相互 影响 可 能 导致 数据 库 状态 的 不 一 致 ， 即 使 各 个 事务 能 保持 状态 的 正确 性 ， 
， 而且 也 没有 任何 故障 发 生 。 因 此 ， 不 同事 务 中 各 个 步骤 的 执行 顺序 必须 以 某 种 方式 进行 规范 。 
控制 这 些 步 又 的 功能 由 DBMS 的 调度 器 部 件 完成 ， 而 - 
保证 并 发 执行 的 事务 能 保持 一 致 性 的 整个 过 程 称 为 
并 发 控制 。 调 度 器 的 作用 如 图 18-1 所 示 。 


当 事 务 请 求 对 数据 库 中 的 元 素 进行 读 写 时 ， 这 BS HER 
些 请 求 被 传递 给 调度 器 。 在 大 多 数 情况 下 ， 调 度 器 
将 直接 执行 读 写 ， 如 果 所 需 数据 库 元 素 不 在 缓冲 区 
中 就 首先 调用 缓冲 区 管理 器 。 但 是 在 某 些 情况 下 ， 读 和 写 


立即 执行 请 求 是 不 安全 的 。 调 度 器 必须 推迟 请 求 的 
执行 ， 有 的 并 发 控制 技术 中 ， 调 度 器 甚至 可 能 终止 
提交 请 求 的 事务 。 acne - 

首先 讨论 如 何 保证 并 发 执行 的 事务 能 保持 数据 ee 
库 状 态 的 正确 性 。 抽 象 的 要 求 称 为 可 串 行 性 ， 另 外 
还 有 个 更 强 的 、 重 要 的 条 件 称 为 冲突 可 囊 行 性 ， 它 是 大 多 数 调度 器 所 真正 实现 的 。 我 们 考虑 
实现 调度 器 的 最 重要 技术 封锁、 时 间 蕉 和 有 效 性 确认 。 

对 基于 封锁 的 调度 器 的 讨论 包括 “两 阶段 封锁 ”这 _ 重 要 概念 ， 这 是 广泛 使 用 的 一 个 保证 
可 品行 性 的 要 求 。 我 们 还 发 现 调度 器 能 使 用 许多 不 同 的 封锁 方式 集合 ， 它 们 各 自 的 应 用 不 同 。 
在 我 们 学 习 的 封锁 模式 中 包括 用 于 嵌 套 的 可 封锁 元 素 集合 和 树 结构 的 可 封锁 元 素 集合 的 模式 。 


18.1 串 行 调度 和 可 串 行 化 调度 


要 展开 对 并 发 控制 的 讨论 ， 必 须 看 一 看 保证 并 发 执行 的 一 组 事务 能 保持 数据 库 状 态 一 致 性 
的 条 件 。 我 们 最 基本 的 假设 是 在 17.1.3 节 所 说 的 “正确 性 原则 ”: 每 个 事务 如 果 在 隔离 的 情况 下 
执行 ( 即 没有 其 他 任何 事务 与 之 同时 执行 )， 将 把 任何 一 致 的 状态 转换 到 另 一 个 一 致 的 状态 。 
但 是 ， 在 实践 中 ， 事 务 通常 和 其 他 事务 并 发 执行 ， 因 而 正确 性 原则 并 非 直接 适用 。 所 以 ， 我 位 
需要 考虑 能 保证 产生 结果 与 一 次 执行 一 个 事务 所 产生 结果 相同 的 动作 调度 。 
18.1.1 调度 

调度 是 一 个 或 多 个 事务 的 重要 操作 按时 间 排 序 的 一 个 序列 。 当 研究 并 发 控制 时 ， 重 要 的 读 
写 动作 发 生 在 主 存 缓冲 区 中 ， 而 不 是 磁盘 上 。 也 就 是 说 ， 某 个 事务 7 放 人 缓冲 区 中 的 数据 库 元 
素 4 在 该 缓冲 区 中 可 能 不 仅 被 7 还 被 其 他 访问 4 的 事务 读 或 写 。 回 忆 一 下 17.1.4 节 ， 如 果 数 据 库 
元 素 不 在 缓冲 区 中 ， 则 READ 和 WRITE 动作 先 调用 INPUT 从 磁盘 上 得 到 该 元 素 ;否则 READ 和 
WRITE 动作 直接 访问 缓冲 区 中 的 元 素 。 因 此 ， 在 考虑 并 发 时 只 有 READ 和 WRITE 及 其 顺序 是 重 
要 的 ， 而 我 们 将 忽略 INPUT 和 OUTPUT 动 作 。 

例 18.1 ”让 我 们 考虑 两 个 事务 以 及 它们 的 动作 按 某 些 顺序 执行 时 的 数据 库 的 影响 。 刀 和 了 瑟 
的 重要 动作 如 图 18-2 所 示 。 变 量 : 和 s 分 别 是 了 和 7 的 局 部 变量 ; 它们 不 是 数据 库 元 素 。 
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我 们 将 假设 数据 库 上 惟一 的 一 致 性 约束 是 4 = Bo HPT, as a 
给 4 和 B 都 加 上 100， 而 7 将 4 和 都 乘 2， 我 们 知道 这 两 个 事 0 S t= sD 
务 隔离 运行 时 各 自 都 能 保持 一 致 性 。 口 WRITEA.*) WRITE(A. s) 
18.1.2 串 行 调度 t := t+100 s := s*2 

如 果 一 个 调度 的 动作 组 成 首先 是 一 个 事务 的 所 有 动作 ， 
然后 是 另 一 个 事务 的 所 有 动作 ， 依 此 类 推 ， 而 没有 动作 的 混 图 18-2 两 个 事务 


合 ， 那 么 我 们 说 这 一 调度 是 囊 行 的 。 更 精确 地 讲 ， 如 果 有 任意 两 个 事务 7 和 T"， 若 7 的 某 个 动作 
在 T 的 某 个 动作 前 ， 则 T 的 所 有 动作 在 T 的 所 有 动作 前 ， 那 么 调度 5 是 串 行 的 。 

例 18.2 对 图 18-2 中 的 事务 而 言 ， 有 两 个 串 行 调度 ,一 个 是 在 7 前 ,而 另 一 个 是 7 在 7 前 。 
图 18-3 给 出 了 了 在 7 前 时 的 事件 序列 ， 初 态 为 4 = 有 = 25。 遵 照 惯例 ， 当 我 们 竖 直 显示 时 ， 在 页 
面 中 靠 下 的 在 时 间 上 靠 后 。 此 外 ， 所 给 4 和 B 值 指 的 是 它们 在 主 存 缓冲 区 中 的 值 ， 而 不 一 定 是 
它们 在 磁盘 上 的 值 。 

接着 ,图 18-4 给 出 了 7, 在 7 前 的 另 一 个 串 行 调度 ， 初 态 仍 假设 为 4 = B= 25。 请 注意 ， 两 个 
调度 4 和 8B 最 终 的 值 是 不 同 的 ; A 和 8 在 先 做 7 时 都 是 250， 而 在 先 做 Ts 时 都 是 150。 然 而 ， 只 要 
一 致 性 得 以 保持 ， 最 后 的 结果 并 不 是 核心 问题 。 通 常 ， 我 们 不 能 期 望 数据 库 终 态 与 事务 顺序 无 
Re 口 

我 们 可 以 像 图 18-3 和 图 18-4 中 那样 ， 通 过 按 发 生 顺 序列 出 所 有 动作 来 表示 串 行 调度 。 但 是 ， 


由 于 串 行 调度 中 动作 的 顺序 只 依赖 于 事务 本 身 的 顺序 ， 因 此 我 们 有 时 通过 事务 列表 来 表示 串 行 
调度 。 因 此 ， 图 18-3 中 的 调度 表示 为 (7 ，7s )， 而 图 18-4 中 调度 表示 为 〈( 歼 ，T)。 











Tı T A B Ti Tz A B 
25 25 |” 25 
READ(A,t) READ(A,s) 
t := t+100 S := 8*2 
WRITE(A,t) 125 WRITE(A,s) 50 
READ (B,t) READ(B,s) 
t := t+100 s := s*2 
WRITE(B,t) 125 WRITE(B,s) 50 
READ (A,s) READ(A,t) 
8 := 8*2 t := t+100 
WRITE(A,s) | 250 WRITE(A,t) 150 
READ(B,s) READ(B,t) 
Ss := s*2 t := t+100 
WRITE(B,s) 250 WRITE(B,t) 150 
图 18-3 也 在 宛 前 的 串 行 调度 图 18-4 THETA BITHE 


18.1.3 可 串 行 化 调度 

事务 的 正确 性 原则 告诉 我 们 ， 每 个 串 行 调度 都 将 保持 数据 库 状态 的 一 致 性 。 但 是 还 有 其 他 
能 保证 可 保持 一 致 性 的 调度 吗 ? 有， 下 面 的 例子 可 以 说 明 。 通 常 ， 如 果 不 管 数据 库 初 态 怎样 ， 
一 个 调度 对 数据 库 状 态 的 影响 都 和 某 个 串 行 调度 相同 ， 我 们 就 说 这 个 调度 是 可 串 行 化 的 。 

例 18.3 图 18-5 给 出 了 例 18.1 中 事务 的 一 个 调度 ， 此 调度 是 可 串 行 化 的 ， 但 不 是 串 行 的 。 在 
这 个 调度 中 ，T 在 7 作用 于 4 后 而 在 7, 作 用 于 8 前 作用 于 4A。 但是， 我 们 看 到 两 个 事务 按 这 种 方 
式 调度 ， 结 果 却 和 我 们 在 图 18-3 中 看 到 的 品行 调度 (T, n) 一 样 。 为 了 说 明 这 一 陈述 是 正确 
的 ， 我 们 必须 不 仅 考 虚像 图 18-5 所 示 那 样 从 数据 库 状态 4 = B = 25 开 始 产生 的 结果 ， 还 要 考虑 从 
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任何 一 致 的 状态 开始 的 情况 。 由 于 所 有 一 致 的 数据 库 状 态 满足 4 = B = c， 不 难 推断 在 图 18-5 的 
调度 中 ，4 和 8 得 到 的 值 都 是 2(c+100)， 因 此 从 任意 一 致 的 状态 开始 ， 一 致 性 都 能 得 到 保持 。 
另 一 方面 ， 考 虑 图 18-6 所 示 的 调度 。 显 然 它 不 是 串 行 的 ， 而 更 重要 的 是 ， 它 不 是 可 串 行 化 
的 。 我 们 之 所 以 能 确定 它 不 是 可 串 行 化 的 ， 原 因 在 于 它 从 一 致 的 状态 4 = B = 25 开 始 ， 最 后 使 
数据 库 处 于 不 一 致 的 状态 4 = 250 而 B = 130。 请 注意 ， 按 照 这 个 动作 的 顺序 ， 即 妃 先 作用 于 4 ， 
而 72 先 作用 于 8， 我 们 实际 上 在 4 和 B 上 实施 了 不 同 的 运算 ， 也 就 是 说 4 := 2(A4+100), TB := 











2B+100。 图 18-6 所 示 的 调度 是 并 发 控制 机 制 必 须 避 免 的 行为 类 型 。 4 
Ty Tz A B Ti Tə 
25 25 
READ(A,t) READ(A,t) 
t := t+100 t := t+100 
WRITE(A,t) 125 WRITE(A,t) 
READ(A,s) READ(A,s) 
s := 9#2 S := 8*2 
WRITE(A,s) | 250 WRITE(A,s) | 250 
READ(B,t) READ(B,8) 
t := t+100 S := 8*2 
WRITE(B ,t) 125 WRITE(B,s) 50 
READ(B,s) READ(B,t) 
S := s*2 t := t+100 
WRITE(B, s) 250 WRITE(B,t) 150 
图 18-5 一 个 非 串 行 的 可 串 行 化 调度 图 18-6 一 个 非 可 串 行 化 的 调度 


18.1.4 事务 语义 的 影响 
在 到 目前 为 止 我 们 对 可 串 行 性 的 学 习 中 ， 我 们 详细 地 考虑 了 事务 执行 的 操作 ， 以 确定 一 个 
调度 是 否 可 串 行 化 的 。 事 务 细节 确实 是 有 关系 的 ， 正 如 我 们 将 在 下 面 的 例子 中 看 到 的 那样 。 
例 18.4 ”考虑 图 18-7 所 示 的 调度 ， 它 和 图 18-6 所 示 的 调度 惟一 不 同 的 地 方 在 于 7 所 执行 的 
运算 。 也 就 是 说 ，7T 并 非 将 4 和 8 乘 2， 而 是 乘 19 。 现 在 ， 在 这 一 调度 的 结尾 ，4 和 有 的 值 相等 ， 
而 我 们 很 容易 验证 ， 不 管 初 态 是 什么 , 终 态 都 将 是 一 致 的 。 事 实 上 ， 终 态 就 是 串 行 调度 (N, 
Te) 或 (TM, Tn) 的 终 态 。 ð 


© 
N 
— 





READ(A,t) 
t := t+100 
WRITE(A,t) 125 
READ (A,s) 
s := s*1 
WRITECA,s) | 125 
READ(B,s) 
s := s*i 
WRITE(B,s) 25 
READ(B,t) 
t := t+100 
WRITE(B,t) 125 


图 18-7 -MA FEE AT TT FL A BE 


@ 读者 可 能 会 问 为 什么 事务 要 这 样 做 。 这 样 问 是 合理 的 ， 但 为 了 这 个 例子 ， 让 我 们 忽略 这 个 问题 。 事 实 上 ， 我 
们 可 以 用 许多 更 合理 的 事务 替代 72， 它 们 都 保持 4 和 B 不 变 ; 例 如， 思 可 以 仅仅 读 4 和 B， 并 打印 其 值 。 或 者 也 
可 能 请 求 用户 输 入 某 些 数据 ， 然 后 计算 一 个 因数 F 来 乘 4 和 B， 而 对 某 些 用 户 输入 我 们 发 现 F = 1, 
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遗憾 的 是 ， 调 度 器 考虑 事务 所 进行 的 计算 的 细节 是 不 现实 的 。 由 于 事务 通常 不 仅 包括 SQL 
或 其 他 高 级 语言 的 语句 书写 的 代码 ， 还 包括 通用 编程 语言 编写 的 代码 ， 有 时 很 难 回答 诸如 “ 事 
务 是 否 将 4 乘 上 一 个 不 等 于 1 的 常数 ”这 样 的 问题 。 但 是 ， 调 度 器 的 确 能 看 到 来 自 事 务 的 读 写 请 
求 ， 于 是 能 够 知道 每 个 事务 读 哪 些 数 据 库 元 素 ， 以 及 它 可 能 改变 哪些 元 素 。 为 了 简化 调度 器 的 
工作 ， 通 常 假 定 : 

“事务 7 所 写 的 任意 数据 库 元 素 4 被 赋予 一 个 值 ， 该 值 以 这 样 一 种 方式 依赖 于 数据 库 状 态 ， 

即 不 会 发 生 算术 上 的 巧合 。 
换 名 话说， 如果 7 对 4 做 某 件 事情 能 使 数据 库 状态 不 一 致 ， 则 7 将 会 做 这 件 事 。 在 18.2 节 当 讨 论 
保证 可 串 行 性 的 充分 条 件 时 ， 我 们 会 使 这 一 假设 更 精确 一 些 。 
18.1.5 事务 和 调度 的 一 种 记 法 

如 果 接 受 事务 所 进行 的 精确 计算 可 以 是 任意 的 ， 那 么 我 们 不 需要 考虑 像 t : =t+100 这 样 的 
局 部 计算 步骤 细节 。 只 有 事务 执行 的 读 和 写 需要 考虑 。 因 此 ， 我 们 将 用 一 种 简写 的 记 法 来 表示 
事务 和 调度 ， 其 中 动作 有 ra 和 wrCD ， 分 别 表 示 事 务 7 读 和 写 数据 库 元 素 X。 此 外 ， 由 于 我 们 
BRERA, To, =, FRAT RAAB.) AlwiX) 0 BE A rr (X) Mw BY A Sid. 

例 18.5 图 18-2 的 事务 可 以 写 为 ; 

Ti: r(A); wi (A); rı (B); wi(B); 

T2: r(A); we(A); r2(B); w2(B); 


注意 , 在 任何 地 方 都 没有 提 到 局 部 变量 tz 和 s, 并且 关于 4 和 8 被 读 后 发 生 了 什么 也 没有 任何 说 明 。 
直观 地 说 ， 在 怎样 修改 数据 库 元 素 方面 ， 我 们 将 “做 最 坏 的 假设 "。 
举 另 一 个 例子 ， 考 虑 图 18-5 中 九 和 7 的 可 串 行 化 调度 。 这 一 调度 写 为 ; 
71(A); wi (A): r2(A); we(A); rı (B); wi(B); r2(B); w(B); 
口 
为 使 这 一 记 法 更 精确 : 
1. 动作 是 形 如 x;(X) 或 w; (2 的 表达 式 ， 分 别 表 示 事 务 T 读 或 写 数 据 库 元 素 X。 
2. 事务 TT 是 具有 下 标 ; 的 动作 序列 。 
3. 事务 集合 7 的 调度 5 是 一 个 动作 序列 ， 其 中 对 T 中 的 每 个 事务 7;，T 中 的 动作 在 $ 中 出 现 的 
顺序 和 其 在 T 自 身 定义 中 出 现 的 顺序 一 样 。 我 们 说 S 是 组 成 它 的 事务 动作 的 一 个 交错 。 
例如 ， 例 18.5 的 调度 中 ， 所 有 下 标 为 1 的 动作 出 现 的 顺序 和 它们 在 T 的 定义 中 的 顺序 一 样 ， 
而 所 有 下 标 为 2 的 动作 出 现 的 顺序 和 它们 在 7 的 定义 中 的 顺序 一 样 。 
18.1.6 习题 
* 习题 18.1.1 航班 预订 系统 执行 的 一 个 事务 娓 执行 以 下 步 又: 
1) 询问 顾客 希望 的 航班 时 间 和 城市 。 所 需 航班 信息 位 于 数据 库 元 素 (可 能 是 磁盘 块 ) 
A 和 8 中， 系统 在 磁盘 上 检索 所 需 信息 。 
2) 告诉 顾客 供 选择 的 选项 ， 顾 客 选 择 一 个 航班 ， 该 航班 的 数据 在 8 中 ， 包 括 该 航班 的 
预订 号 。 为 该 顾客 预订 该 航班 。 
3) 顾客 为 该 航班 选择 一 个 座位 ; 该 航班 的 座位 信息 位 于 数据 库 元 素 C 中 。 
4) 系统 获得 顾客 的 信用 卡号 ， 并 将 该 航班 的 账单 附加 到 数据 库 元 素 D 的 账单 列表 上 。 
5) 顾客 的 电话 和 航班 数据 被 加 到 数据 库 元 素 E 上 的 另 一 个 列表 中 ， 这 是 为 了 向 顾客 发 
确认 航班 的 传真 。 
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将 事务 用 表示 为 7 和 w 动 作 的 一 个 序列 。 
*! 习题 18.1.2 如 果 两 个 事务 分 别 有 4 个 动作 和 6 个 动作 ， 它 们 的 交错 有 多 少 ? 


18.2 冲突 可 串 行 性 


我 们 现在 将 要 提出 一 个 足以 保证 调度 可 串 行 化 的 条 件 。 当 想 要 保证 事务 以 一 种 可 串 行 化 的 
方式 执行 时 ， 商 用 系统 中 的 调度 器 通常 保证 这 个 我 们 称 为 “冲突 可 串 行 性 ”的 较 强 的 条 件 。 它 
基于 冲突 这 一 概念 : 调度 中 一 对 连续 的 动作 ， 它们 满足 : 如 果 它 们 的 顺序 交换 ， 那 么 涉及 的 事 
务 中 至 少 有 一 个 的 行为 会 改变 。 

18.2.1 冲突 

首先 我 们 要 看 一 下 ， 大 多 数 的 动作 对 按 上 面 的 理解 并 不 冲突 。 在 接 下 来 的 内 容 中 ， 我 们 假 
设 T 和 是 不 同 的 事务 ， 即 i zj。 

1. ADOi7 信 从 不 会 是 冲突 ， 即 使 入 了。 原因 是 这 些 步 又 都 不 改变 任何 值 。 

2. MRXAY, BAr(X); wX 了 不 会 是 冲突 。 原 因 是 区 如 果 在 T 读 X 以 前 写 7，X 的 值 不 会 改 
变 。 而 且 T 读 X 对 没有 影响 ， 因 此 它 不 会 影响 为 了 号 的 值 。 

3. WRXAY, BAwA(X); ni( 卫 不 会 是 冲突 ， 原 因 和 (2 ) 一 样 。 

4, 类 似 的 还 有 ， 只 要 XY， 那么 wi( 名 ; wx( 了 不 会 是 冲突 。 

另 一 方面 ， 在 下 列 三 种 情况 下 我 们 不 能 交换 动作 的 顺序 ; 

a) 同一 事务 的 两 个 动作 冲突 ， 如 rC9; wx( 芒 。 原 因 在 于 单个 事务 的 动作 顺序 是 固定 的 ， 而 
且 是 不 能 被 DBMS 重 新 排列 的 。 

b) 不 同事 务 对 同一 数据 库 元 素 的 写 冲 突 。 也 就 是 阅 ，wCO; wi( 加 是 一 个 冲突 。 原 因 在 于 ， 
在 被 写 人 时 ，X 的 值 在 Tj 计算 出 它 是 多 少 后 就 一 直 保 持 。 如 果 我 们 交换 有 顺序 为 wA(X);，wi()， 那 
么 最 后 使 x 具有 T 计 算出 的 值 。 关 于 “没有 巧合 ”的 假设 告诉 我 们 ， 工 生 写 人 值 可 能 不 同 ， 因 
而 对 于 某 个 数据 库 初 态 而 言 值 将 会 不 同 。 

c) 不 同事 务 对 同一 数据 库 元 素 的 读 和 写 也 冲突 。 也 就 是 说 ，r (2 世 ; WOON, wi(X)3 r 
DEE. MR (OBS (2 前， 那么 T; 读 到 的 X 的 值 将 是 被 写 人 的 值 ， 而 我 们 认为 这 个 值 
不 一 定 等 于 X 原 有 的 值 。 因 此 ， 交 换 x; (X)Alw, (3) 的 顺序 会 影响 T; 读 到 的 X 的 值 ， 而 且 可 能 因此 
影响 到 所 做 的 事 。 

我 们 得 到 的 结论 是 ， 不 同事 务 的 任何 两 个 动作 在 顺序 上 可 以 交换 ， 除 非 

1. 它们 涉及 同一 数据 库 元 素 ; 并 且 

2. 至 少 有 一 个 是 写 。 

将 这 一 想法 进行 扩展 ， 我 们 可 以 接受 任 一 调度 ， 进 行 任意 非 冲突 的 交换 ， 目 标 是 将 该 调度 转换 
为 一 个 串 行 调度 。 如 果 我 们 能 做 到 这 一 点 ， 那 么 初始 的 调度 是 可 串 行 化 的 ， 因 为 它 对 数据 库 状 
态 的 影响 在 我 们 做 每 一 个 非 冲突 交换 时 是 不 变 的 。 

我 们 说 两 个 调度 是 冲突 等 价 的 ， 如 果 通 过 一 系列 相 邻 动作 的 非 冲突 交换 能 将 它们 中 的 一 个 
转换 为 男 一 个 。 如果 一 个 调度 冲突 等 价 于 一 个 串 行 调度 , 那么 我 们 说 该 调度 是 冲突 可 囊 行 化 的 。 
请 注意 ， 冲 突 可 串 行 性 是 可 串 行 性 的 一 个 充分 条 件 ; 即 冲突 可 串 行 化 调度 是 可 串 行 化 调度 。 冲 
突 可 趾 行 性 对 一 个 可 串 行 化 调度 来 说 并 不 是 必要 的 ， 但 它 是 商用 系统 中 的 调度 器 在 需要 保证 可 
串 行 性 时 通常 使 用 的 条 件 。 

例 18.6 考虑 例 18.5 中 的 调度 


r(A); wi(A); r(A); wA); n(B); wi(B); rB); w:(B); 
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BTL Ta ERT BEA. 18-84 THA AERA BATA (CT, Ta) 的 一 
系列 交换 ， 在 此 串 行 调度 中 ,TT 的 所 有 动作 在 7; 的 所 有 动作 之 前 。 我 们 在 每 一 步 中 要 交换 的 相 
邻 动作 对 上 加 了 下 划 线 。 口 
71(A); wi( A); ra( A); wa (A); 71(B); wi(B); ra(B); we(B); 
r1(A); wi(A); r2(A); r1(B); wz(4); wi(B); r2a(B); we(B); 
rı(A); wi(A); r1(B); r(A); we(A); wi(B); r2(B); w(B); 
(A); wi(A); r1(B); 72(A); wı (B); wa(A); ra(B); we(B); 
71(A); wi(A); rı(B); wi (B); r2(A); we(A); r2(B); we(B); 


图 18-8 通过 交换 相 邻 动作 将 冲突 可 串 行 化 调度 转换 为 串 行 调度 


18.2.2 优先 图 及 冲突 可 串 行 性 判断 

检查 调度 $ 并 决定 它 是 否 冲 罕 可 串 行 化 相对 而 言 比 较 简单 。 其 思路 是 ， 不 管 在 8 的 什么 地 方 
出 现 了 冲突 动作 ， 执 行 这 些 动作 的 事务 在 任何 冲突 等 价 的 串 行 调度 中 出 现 的 顺序 必须 和 它们 在 
S 中 出 现 的 顺序 一 样 。 因 此 ， 冲 突 动 作对 给 假定 的 、 冲 突 等 价 的 串 行 调度 中 事务 的 顺序 加 上 了 
限制 。 如 果 这 些 限制 不 是 相互 矛盾 的 ， 那 么 我 们 就 能 找到 一 个 冲突 等 价 的 串 行 调度 。 如 果 存 在 
相互 矛盾 ， 我 们 就 知道 不 存在 这 样 的 串 行 调度 。 

已 知 调度 $5， 其 中 涉及 事务 TI/ 和 7T,， 可 能 还 有 其 他 事务 ， 我 们 说 T 优 先 于 T,， 写 做 Ti< sh, 
如 果 有 工 的 动作 A1 和 7T, 的 动作 4。， 满 足 : 

1. 在 5 中 4 在 4; 前 ; 

2. 41 和 4, 都 涉及 同一 数据 库 元 素 ; 并 且 

3. A 和 4; 中 至 少 有 一 个 是 写 动 作 。 
请 注意 ， 这 正 是 我 们 不 能 交换 4:; 和 4 顺序 的 情况 。 因 此 ， 在 任何 冲突 等 价 于 8 的 调度 中 ，4 ,将 
出 现在 4 前 。 所 以 ， 如 果 这 些 调度 中 有 一 个 是 串 行 调度 ， 那 么 该 调度 必然 使 7 在 玫 前 。 

我 们 可 以 在 优先 图 中 概括 这 样 的 先后 次 序 。 优 先 图 的 结 点 是 调度 8 中 的 事务 。 当 这 些 事务 
是 具有 不 同 的 的 T 时 ， 我 们 将 仅 用 整数 ;来 表示 7T; 的 结 点 。 如 果 T<sT,， 则 有 一 条 从 结 点 ;到 结 点 
j 的 弧 。 i 
为 什么 冲突 可 串 行 性 对 可 串 行 性 来 说 不 是 必要 的 

在 图 18-7 中 我 们 已 经 看 到 了 一 合子。 在 那里 我 们 看 到 了 72 所 进行 的 具体 计算 如 何 使 调 
度 可 串 行 化 。 然 而 ， 图 18-7 的 调度 不 是 冲突 可 囊 行 化 的 ， 因 为 4 先 被 T 写 而 B 先 被 厂 写 。 由 
于 不 管 是 4 还 是 B 的 写 都 不 能 被 重新 排序 ， 我 们 没有 办 法 使 TI 的 所 有 动作 位 于 T 的 所 有 动 
作 前 ， 或 者 反 过 来 。 | 

但 是 ， 不 依赖 于 事务 所 执行 的 计算 的 可 串 行 化 但 非 冲突 可 串 行 化 调度 的 例子 是 存在 
, Wie, FREBT,. ÆT, 它们 各 为 X 写 入 一 个 值 。 T Fe Toft AXE NAANA 
了 写 入 值 。 一 个 可 能 的 、 恰 好 是 串 行 的 调度 是 : 

Sis wi (Vwi (X)3w2 (Dw Xs (Xx); 
51 最 后 使 X 具 有 Ts 写 入 的 值 而 FY 具有 Ts 写 入 的 值 。 而 调度 
Si: wi(P);w2 (Y);w: (X);w1 (Ows (X); 

也 如 此 。 直 观 地 说 ，T1 和 写 入 的 值 是 无 效 的 ， 因 为 3 履 盖 了 它们 的 值 。 因 此 $1 和 5, 最 后 
得 到 的 了 和 7 了 值 都 相等 。 由 于 S51 是 串 行 的 ， 而 对 任何 数据 库 状 态 而 言 ，S1 具 有 和 5 一 样 的 效 
果 ， 所 以 我 们 知道 是 9 可 事 行 化 的 。 然 而 ， 由 于 我 们 不 能 交换 wi (站 和 ws (站 ， 并 且 不 能 交 
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的 ， 但 不 是 冲突 可 串 行 化 的 。 


例 18.7 下 面 的 调度 $ 涉 及 三 个 事务 T,、T 和 TT。 
S: r (A);rı (B);w2 (A);rs (A);w1 (B);w3 (A);r2 (B);w2 (B); 
如 果 看 关于 4 的 动作 ， 我 们 可 以 找到 ?<s 的 多 个 原因 。 例 如 ， 在 5 中 ,ro(4) 在 wx(4) 前 ， 而 wo (A) 
EEr (4) 前 又 在 w; (4) 前 。 这 三 种 情况 中 的 任何 一 种 就 足以 证 明 图 18-9 的 优先 图 中 从 2 到 3 的 弧 
是 正确 的 。 

类 似 地 ， 如 果 看 关于 B 的 动作 ， 我 们 可 以 找到 Ti<sTs 的 多 个 原因 。 例 如 ， 动 作 n( 轧 在 w2(8) 
前 。 因 此 ，5$ 的 优先 图 中 也 有 从 1 到 2 的 弧 。 然 而 ， 我 们 能 用 调度 $ 的 动作 顺序 来 证 明 其 合理 性 的 
THe A Ake, 口 

判断 调度 3 是 否 是 冲突 可 串 行 化 有 一 条 简单 的 规则 : 

“构造 8 的 优先 图 ， 并 判断 其 中 是 否 有 环 。 

如 果 有 ， 那 么 $ 不 是 冲突 可 串 行 化 的 。 但 如 果 该 图 是 无 环 的 ， 那 么 8 是 冲突 可 串 行 化 的 ， 而 且 结 
点 的 任 一 个 拓扑 顺序 “都 是 一 个 冲突 等 价 的 串 行 顺序 。 


例 18.8 图 18-9 是 无 环 的 ， 因 此 例 18.7 中 的 调度 是 冲突 可 串 行 化 的 。 与 该 图 相符 的 结 点 顺 
序 或 事务 顺序 只 有 一 个 : (T, To, Tro TER, HSH 
换 成 这 三 个 事务 中 每 一 个 的 所 有 动作 都 按 这 个 顺序 发 O @) O 
生 确 实 是 可 能 的 ; 这 一 串 行 顺序 是 : 图 18-9 例 18.7 中 调度 的 优先 图 
S: ri (B); wi (B); r2 (A); wa (A);r2 (B); w2 (B); r(A); w3(A); 
为 了 说 明 我 们 可 以 通过 相 邻 元 素 的 交换 从 8 得 到 8 ， 首 先 请 注意 我 们 可 以 将 mm (B) 无 冲突 地 移 到 
(4) 前 。 接 着 ,通过 三 次 交换 ， 我 们 可 以 将 wi (8) 移 到 紧 随 x, (B) 的 地 方 ， 因 为 涉及 的 每 个 动作 都 
是 关于 A 而 不 是 关于 8 的 。 然 后 我 们 可 以 将 rz (Aw: (DEA Rm (4) 的 位 置 ， 移 动 中 涉及 的 
动作 都 是 关于 4 的 ; ARES’ 口 
例 18.9 考虑 调度 
Si: r(A); rı (B); w2 (A); 72(B); rs (A); wi (B); wa (A); w2(B); 
它 和 5 的 区 别 仅仅 在 于 动作 x, (8) 被 向 前 移动 了 三 个 位 置 。 查 看 关于 4 的 动作 ， 我 们 仍然 只 能 得 
到 先后 次 序 T2<,, Tro BÆ, SRAM, 不 仅 得 到 Ti<s, TAA Ar (BAw: (B) 出 现在 w (B) 
BU), 还 得 到 Tz<s, T ( 因为 r,(8) 出 现在 wi (B) 前 )。 因 此 ， 我 们 得 到 图 18-10 中 调度 5 的 优先 图 。 
该 图 中 显然 有 环 。 我 们 断定 9 不 是 冲突 可 串 行 化 的 。 E 
直观 地 说 ， 任 何冲 突 等 价 串 行 调度 都 必须 既 使 Tl 在 7 前 0 
又 使 也 在 ?2 后， 因而 这 样 的 调度 是 不 存在 的 。 口 图 18-10 一 个 有 环 的 优先 图 ， 其 调度 
18.2.3 优先 图 测试 发 挥 作用 的 原因 . 不 是 冲突 可 串 行 化 的 


正如 我 们 已 经 看 到 的 那样 ， 优 先 图 中 的 环 在 假想 的 冲突 等 价 串 行 调度 中 事务 的 顺序 上 加 上 
了 过 多 的 限制 。 也 就 是 说 ， 如 果 有 一 个 涉及 nm 个 事务 的 环 7 一 7 一 … 一 Ti 一 7i， 那 么 在 假想 的 串 





O 无 环 图 的 拓扑 顺序 是 满足 如 下 条 件 的 任何 顺序 ， 对 每 条 弧 o- 交 ， 在 拓扑 顺序 中 都 有 结 点 a 在 结 点 5 前 。 通 过 重复 地 
去 除 在 剩余 结 点 中 没有 前 驱 的 结 点 ， 我 们 可 以 为 任何 无 环 图 找到 一 个 拓扑 顺序 。 
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行 调度 中 ， 刀 的 动作 必须 位 于 7 的 动作 前 ， 而 7 的 动作 必须 位 于 7 的 动作 前 ， 依 此 类 推 ， 一 直 
到 T,。 应 该 位 于 7 的 动作 之 后 的 T, 的 动作 却 又 因为 存在 弧 T, 一 7 而 被 要 求 位 于 7 的 动作 之 前 。 
因此 ， 我 们 的 结论 是 ， 如 果 在 优先 图 中 存在 环 ， 则 该 调度 不 是 冲突 可 串 行 化 的 。 

反 过 来 要 稍微 难 一 些 。 我 们 必须 证 明 只 要 优先 图 中 无 环 ， 就 可 以 通过 相 邻 动作 的 合法 交换 
来 改变 调度 中 动作 的 顺序 ， 直 到 调度 成 为 一 个 串 行 调度 。 如 果 能 做 到 这 一 点 ， 那 么 我 们 就 能 证 
明 任意 一 个 具有 无 环 优先 图 的 调度 都 是 冲突 可 串 行 化 的 。 我 们 的 证 明 是 对 调度 所 涉及 的 事务 数 
进行 归纳 。 

基础 : WR n = 1， 即 调度 中 只 有 一 个 事务 ， 那么 调度 已 经 是 串 行 的 ， 因 此 也 肯定 是 冲突 
可 串 行 化 的 。 

归纳 : 设 调 度 5 由 n 个 事务 

Ti, Try 5 Tr 


的 动作 构成 。 我 们 假设 S 有 一 个 无 环 的 优先 图 。 如 果 一 个 有 限 图 是 无 环 的 ， 那么 至 少 有 一 个 结 
点 没有 到 达 该 结 点 的 弧 ; 设 对 应 于 事务 T 的 结 点 i 是 这 样 的 一 个 结 点 。 由 于 没有 弧 到 达 结 点 i 
因此 $ 中 不 可 能 有 这 样 的 动作 4: 

1. 涉及 Ti 以 外 的 某 个 事务 7T; 

2. 位 于 7 的 某 个 动作 前 ; 并 且 

3. 与 这 个 动作 冲突 。 
因为 如 果 存 在 这 样 的 4， 我 们 应 该 在 优先 图 中 加 入 从 结 点 /到 结 点 的 弧 。 

因此 我 们 可 以 交换 7 的 所 有 动作 ， 保 持 它们 的 顺序 ， 但 将 它们 移 到 3 的 前 部 。 该 调度 现在 
具有 如 下 形式 

( 工 的 动作 ) ( 其 他 n - 1 个 事务 的 动作 ) 
我 们 现在 考虑 $ 的 后 半 部 分 一 五 以 外 所 有 事务 的 动作 。 由 于 这 些 动作 保持 了 与 它们 在 8 中 相同 
的 顺序 ， 除 了 没有 结 点 T; 以 及 从 该 结 点 出 发 的 所 有 统 以 外 ， 后 半 部 分 的 优先 图 和 3 的 一 样 。 

由 于 原始 的 优先 图 是 无 环 的 ， 删 除 结 点 和 弧 不 可 能 使 其 成 为 有 环 的 ， 我 们 断定 后 半 部 分 的 
优先 图 无 环 。 此 外 ， 由 于 后 半 部 分 涉及 n - 1 个 事务 ， 归 纳 假设 对 它 来 说 是 适用 的 。 因 此 ， 我们 
可 以 通过 相 邻 动作 的 合法 交换 重新 排列 后 半 部 分 中 动作 的 顺序 来 将 其 转换 为 串 行 调度 。 现 在 ， 
$ 自 身 已 经 被 转 成 了 一 个 串 行 调度 ， 其 中 首先 是 7 的 动作 ， 然 后 是 按照 某 种 串 行 顺序 的 其 他 事 
务 的 动作 。 归 纳 证 明 完 成 ， 我 们 的 结论 是 每 个 具有 无 环 优先 图 的 调度 都 是 冲突 可 串 行 化 的 。 
18.2.4 习题 

习题 18.2.1 ”下 面 是 用 对 数据 库 元 素 4 和 有 的 影响 来 描述 的 两 个 事务 ， 我 们 可 以 假设 数据 库 

元 素 A 和 8B 是 整数 。 


Tı: READ(A,t); t:=t+2; WRITE(A,t); READ(B,t); t:=t*3; WRITE(B,t); 
Tz: READ(B,s); s:=s*2; WRITE(B,s); READ(A,s); s:=s+3; WRITE(A,s); 


我 们 假设 ， 不 管 数 据 库 上 的 一 致 性 约束 是 什么 ， 这 些 事务 在 隔离 的 情况 下 能 够 保持 这 些 约 
Ro HER, A= B 不 是 一 致 性 约束 。 

a) 这 两 个 串 行 顺序 对 数据 库 的 影响 是 相同 的 ， 即 CT, T) S(T, Tr) 等 价 。 通 过 
给 出 任意 数据 库 初 态 时 这 两 个 事务 的 结果 ， 说 明 这 一 事实 。 

b) 给 出 上 面 12 个 动作 的 一 个 串 行 调度 的 例子 和 一 个 非 串 行 调度 的 例子 。 

c) 这 12 个 动作 共有 多 少 串 行 调度 ? 


HR Ha 
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HL d) X12 SUE SPT ATI? 
习题 18.2.2 用 只 给 出 读 写 动作 的 记 法 ， 习 题 18.2.1 中 的 两 个 事务 可 以 写作 : 
Ti: 7 (A); w (A); 71(B); wi(B); 
T>: r2(B); we(B); r2(A); wa(A); 
回答 以 下 问题 ; 
*! a) 在 上 述 8 个 动作 可 能 的 调度 中 ， 有 多 少 冲突 等 价 于 串 行 顺序 CT, To)? 
b) 这 8 个 动作 的 调度 中 ， 有 多 少 等 价 于 串 行 顺序 (T, Ti)? 
L oY 这 8 个 动作 的 调度 中 ， 有 多 少 等 价 于 〈 不 一 定 是 冲突 等 价 于 ) BORE (T, To), 
假设 事务 具有 习题 18.2.1 中 插 述 的 对 数据 库 的 影响 ? 
! dd) 为 什么 上 述 (c) 的 答案 与 习题 18.2.1(g) 的 答案 不 同 ? 
习题 18.2.3 假设 习题 18.2.2 中 的 事务 改 为 ， 
Ti: rı(4); wi (A); rı (B); wı (B); 
Ta: T2(A); wa(A); ra(B); w(B); 


也 就 是 说 ， 事 务 保持 它们 在 习题 18.2.1 中 的 语义 ， 但 T 改 为 在 处 理 B 以 前 处 理 4。 给 出 : 
a) 冲突 可 串 行 化 的 调度 数 。 
b) 可 串 行 化 的 调度 数 ， 假 设 事 务 对 数据 库 状态 的 影响 同 习题 18.2.1。 
习题 18.2.4 对 以 下 的 每 个 调度 
* a) ri(A); r2(A); ra(B); wi (A); r2(C); ra(B); we(B); w (C); 
b) (A); wi(B); r2(B): we(C); ra(C)i w3(A); 
c) ws(A); 71{A); wi (B); r2(B): we(C); r3(C); 
d) r1(A); r2(A); wi (B); we(B); 11 (B); r2(B); we(C); wi (D); 
e) rı(A); r2(A); 71(B); r2(B); 73(A); ra(B); wn (A); w2(B); 
回答 如 下 问题 : 
1) 调度 的 优先 图 是 什么 ? 
2) 调度 是 冲突 可 串 行 化 的 吗 ? 如 果 是 ， 等 价 的 串 行 调度 有 哪些 ? 
3) 是 否 有 等 价 的 调度 不 管事 务 对 数据 做 什么 )， 但 又 不 是 冲突 等 价 的 ? 
习题 18.2.5 ”如 果 调 度 5 中 事务 7 的 每 个 动作 都 在 事务 U 的 所 有 动作 之 前 ， 我 们 说 事务 T 位 于 
事务 U 前 。 注 意 ， 如 果 T 和 U 是 $ 中 仅 有 的 事务 ， 那么 说 T 位 于 U 前 等 同 于 说 5 是 串 行 调度 (T, 
U) 但是， 如 果 $ 还 涉及 T 和 U 以 外 的 事务 ， 那么 5 可 能 不 是 可 串 行 化 的 ， 而 事实 上 ， 由 于 
其 他 事务 的 影响 ， 甚 至 可 能 不 是 冲突 可 串 行 化 的 。 给 出 一 个 调度 $ 的 例子 ， WEA: 
DESH, TAFT; 并 且 
2) 5 是 冲突 可 串 行 化 的 ; 但 是 
3) 在 每 个 冲突 等 价 于 8 的 串 行 调度 中 ， 环 位 于 妃 前 。 
习题 18.2.6 解释 对 任意 n>1 怎 样 找到 一 个 调度 ， 其 优先 图 中 具有 长 度 为 n 的 环 ， 但 没有 更 
小 的 环 。 
18.3 使 用 锁 的 可 串 行 性 实现 


设想 以 一 种 不 受 约束 的 方式 执行 其 动作 的 事务 的 一 个 集合 。 这 些 动作 将 形成 一 个 调度 ， 但 
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是 这 一 调度 不 太 可 能 是 可 串 行 化 的 。 防 止 导致 非 可 串 行 化 调度 的 动作 顺序 是 调度 器 的 任务 。 在 
本 节 中 ,我 们 考虑 调度 器 最 常用 的 体系 结构 ， 这 种 结构 在 数据 库 元 素 上 维护 “ 锁 *， 以 防止 非 
可 串 行 化 的 行为 。 直 观 地 说 ， 事 务 获得 在 它 所 访问 的 数据 库 元 素 上 的 锁 ， 以 防止 其 他 事务 儿 乎 
在 同一 时 间 访 问 这 些 元 素 并 因而 引入 非 可 串 行 性 的 可 能 。 

在 本 节 中 ， 我 们 用 一 个 (过 于 ) 简单 的 封锁 模式 来 介绍 封锁 的 概念 。 这 种 模式 中 只 有 一 种 
锁 ， 它 是 事务 想 要 在 数据 库 元 素 上 执行 任何 操作 时 都 必须 在 该 数据 库 元 素 上 获得 的 。 在 18.4 节 
中 ， 我 们 将 学 习 更 现实 的 封锁 模式 ， 这 样 的 封锁 模式 使 用 多 种 锁 ， 包 括 常用 的 分 别 对 应 于 读 权 
限 和 写 权限 的 共享 /排他 锁 。 

18.3.1 锁 ' 

在 图 18-11 中 我 们 看 到 一 个 使 用 锁 表 来 协助 自己 工作 的 调度 器 。 回 忆 一 下 ， 调 度 器 的 责任 
是 接受 来 自 事务 的 请 求 ， 或 者 允许 它们 在 数据 库 上 操作 ， 或 者 将 它们 推迟 到 允许 它们 执行 是 安 
全 的 。 锁 表 用 来 指导 这 一 决策 ， 我 们 将 详细 讨论 其 方 事务 发 出 的 请 求 
式 。 1 

理想 地 讲 ， 调 度 器 转发 请 求 当 且 仅 当 该 请 求 的 执行 
不 可 能 在 所 有 活路 事务 提交 或 终止 后 使 数据 库 处 于 不 一 
致 的 状态 。 但 是 在 现实 中 这 个 问题 太 难 而 不 能 决定 。 因 
此 ， 所 有 调度 器 都 使 用 一 种 简单 的 测试 ， 它 能 保证 可 串 
行 性 ， 但 可 能 会 禁止 一 些 自身 并 不 会 导致 不 一 致 性 的 动 
作 。 封 锁 调 度 器 像 大 多 数 调度 器 种 类 一 样 ， 事 实 上 实现 图 18-11 使 用 锁 表 指导 决策 的 调度 器 
的 是 冲突 可 串 行 性 ， 而 我 们 已 经 知道 这 是 一 个 比 可 种 行 性 更 苛刻 的 条 件 。 

当 调 度 器 使 用 锁 时 ， 事 务 在 读 写 数据 库 元 素 以 外 还 必须 申请 和 释放 锁 。 锁 的 正确 使 用 有 两 
种 意义 : 一 种 适用 于 事务 的 结构 ， 而 另 一 种 适用 于 调度 的 结构 。 

。 事 务 的 一 致 性 : 动作 和 锁 必 须 按 预期 的 方式 发 生 联 系 : 

1. 事务 只 有 以 前 已 经 在 数据 库 元 素 上 申请 了 锁 并 且 还 没有 释放 锁 时 才能 读 或 写 该 数据 库 
元 素 。 

2. 如 果 事 务 封锁 某 个 数据 库 元 素 ， 它 以 后 必须 为 该 元 素 解锁 。 

“AROSE: 锁 必须 具有 其 预期 的 含义 : 任何 两 个 事务 都 不 能 封锁 同一 元 素 ， 除 非 其 

中 一 个 事务 已 经 先 释 放 其 锁 。 

扩展 我 们 关于 动作 的 记 法 ， 以 加 入 封锁 和 解锁 动作 : 

LO: 事务 7 请 求 数据 库 元 素 X 上 的 锁 。 

mD: 事务 7T: 释 放 它 在 数据 库 元 素 X 上 的 锁 (解锁 )。 
因此 ， 事 务 的 一 致 性 条 件 可 以 表述 为 :“ 只 要 事务 7T; 有 动作 z; (加 或 w, (9)， 那 么 前 面 必然 有 一 个 
动作 1; (X) 且 二 者 之 间 没 有 wi (X)， 并 且 后 面 将 会 有 一 个 (X)”。 调 度 的 合法 性 表述 为 :“ 如 果 调 
度 中 在 动作 (WD 后 有 ;;(X)， 那 么 这 些 动作 之 间 的 菜 个 地 方 必然 有 一 个 动作 wu, XY”. 

例 18.10 ”让 我 们 考虑 在 例 18.1 中 介绍 的 两 个 事务 Ti 和 T;,。 同 忆 一 下 ， 工 给 数据 库 元 素 A 和 B 
加 上 100， 而 7 将 它们 加 倍 。 下 面 是 这 些 事务 的 说 明 ， 我 们 在 其 中 包含 了 锁 的 动作 ， 还 包含 了 
算术 动作 ， 以 帮助 我 们 记 起 这 些 事务 是 做 什么 的 e。 






动作 的 可 串 
行 化 调度 


@ 请 记 住 事务 的 实际 计算 在 我 们 现在 的 记 法 中 通常 是 不 被 表示 出 来 的 ， 因 为 调度 器 在 决定 是 间 意 事务 请 求 还 是 
拒绝 时 并 不 考虑 它们 。 
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Ty: L(A); r1(A); A := A+100; wi(A); u(4); 4(B); rı(B); B := B+100; 


wı(B); u (B); 
la(A); ra(A); A := A*2; w(A); u2(A); la(B); r2(B); B := B*2; we(B); 
u2(B); 
这 些 事务 中 每 一 个 都 是 一 致 的 。 它 们 都 释放 它们 在 4 和 B 上 持 有 的 锁 。 此 外 ， 它 们 对 A4 和 B 
的 操作 都 只 是 在 前 面 已 经 获得 了 该 元 素 上 的 锁 且 尚未 释放 该 锁 的 那些 步骤 中 。 


= 


Ta: 


N 


Tı 


L(A); ri (A); 

A := A+100; 

wi(A); u (A); 
12(4)i r2(4); 
A := A*2; 


we(A); u2(A); 250 
la(B); re(B); 
B := B*2; 
w2(B); u2(B); 
1,(B); rı (B); 
B := B+100; 
wi(B); ui (B); 





图 18-12 一 致 事务 的 一 个 合法 调度 ; (ERE, CRATE 


图 18-12 给 出 了 这 两 个 事务 的 一 个 合法 调度 。 为 了 节省 空间 ， 我 们 在 一 行 上 放 了 多 个 动作 。 
这 个 调度 是 合法 的 ， 因 为 这 两 个 事务 从 未 同时 在 4 上 持 有 锁 ， 并 且 对 B 也 一 样 。 具 体 地 说 ， 了 一 
直 等 到 7 执行 (4) 后 才 执 行 (4)， 而 T 一 直 等 到 T 执 行 ws (B) 后 才 执 行 1(B)。 正 如 我 们 在 所 计 
算 值 的 序列 中 看 到 的 那样 ， 这 个 调度 尽管 是 合法 的 ， 却 不 是 可 串 行 化 的 。 我 们 将 在 18.3.3 节 中 
来 看 保证 合法 调度 冲突 可 串 行 所 需要 附加 的 条 件 “两 阶段 封锁 ”。 口 


18.3.2 封锁 调度 器 

基于 封锁 的 调度 器 的 任务 是 当 且 仅 当 请 求 将 产生 合法 调度 时 同意 请 求 。 为 了 帮助 进行 决策 ， 
调度 器 有 一 个 锁 表 ,对 于 每 个 数据 库 元 素 ， 如 果 其 上 有 锁 , 那么 锁 表 指明 当前 持 有 该 锁 的 事务 。 
我 们 将 在 18.5.2 节 更 详细 地 讨论 锁 表 的 结构 。 但 是 ， 当 像 我 们 到 目前 为 止 所 假设 的 那样 只 有 一 
种 锁 时 ， 该 表 可 以 被 看 做 是 关系 Locks (element, transaction) ， 由 满足 事务 7 当前 具有 
数据 库 元 素 X 上 的 锁 的 (X，7) 对 组 成 。 调 度 器 只 需要 用 简单 的 INSERT 和 DELETE 语 句 访问 和 
修改 这 一 关系 。 

例 18.11 图 18-12 中 的 调度 是 合法 的 ， 正 如 我 们 提 到 的 那样 ， 所 以 封锁 调度 器 将 按照 所 示 
的 请 求 到 达 的 顺序 同意 每 个 请 求 。 但 是 ， 有 时 不 能 同意 请 求 。 下 面 是 来 自 例 18.10 的 TI/ 和 T,， 我 
们 只 做 了 简单 的 (但 也 是 重要 的 ， 正 如 我 们 将 在 18.3.3 节 看 到 的 那样 ) Br, KPT AT AE 
释放 4 上 的 锁 以 前 封锁 8。 


Ty: L(A); r(A); A := A#100; wi(A); (B); wi(A); ni(B); B := B+100; 
wi(B); u(B); | 

Tp: 12(4); r2(4); A := A*2; we(A); l2(B); u2(A); ra(B); B := B¥2; w2(B); 
u2(B); 


在 图 18-13 中 ， 当 7 请 求 8 上 的 锁 时 ， 调 度 器 必须 拒绝 此 锁 ， 因 为 TI 仍 持 有 8B 上 的 锁 。 因 此 ， 
T 停 转 ， 而 接 下 来 的 动作 是 来 自 T 的 。 最 后 ,TT 执 行 ui (B), ZERB, ME, TI AREE 
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在 8 上 的 锁 , 这 是 在 下 一 步 所 执行 的 。 请 注意 ， 由 于 7 被 迫 等 待 ， 它 推迟 到 给 B 加 100 后 再 将 
其 乘 2， 因 而 得 到 一 个 一 致 的 数据 库 状 态 。 口 


Tı 





L(A); r(A); 

A := A+100; 

wi (A); 1 (B); wu (A); 
(A); r2(A); 
A := A*2; 
we{A); 
lo(B) 被 拒绝 

r,(B); B := B+100; 

wi(B); wu1(B); 


(8); u2(A); r2(B); 
= B*2: 


wn (B u2(B); 
图 18-13 封锁 调度 器 推迟 将 导致 非法 调度 的 请 求 





18.3.3 两 阶段 封锁 
在 一 个 令 人 吃惊 的 条 件 下 ， 我 们 可 以 保证 一 致 事务 的 合法 调度 是 冲突 可 串 行 化 的 。 这 一 条 
件 称 为 两 阶段 封锁 或 ?2PL， 在 商用 封锁 系统 中 被 广泛 采用 。2PL 条 件 是 ; 

“ 在 每 个 事务 中 ， 所 有 封锁 请 求 先 于 所 有 解锁 请 求 。 
因此 2PL 中 所 指 的 “两 阶段 ”是 获得 锁 的 第 一 阶段 和 放弃 锁 的 第 二 阶段 。 两 阶段 封锁 像 一 致 性 
一 样 ， 是 对 一 个 事务 中 动作 的 顺序 进行 限制 的 条 件 。 服 从 2PL 条 件 的 事务 被 称 为 两 阶段 封锁 事 
务 ， 或 2?PL 事 务 。 

例 18.12 在 例 18.10 中 ， 事 务 不 遵循 两 阶段 封锁 规则 。 例 如 ， 工 在 封锁 8 以 前 解锁 4。 但 是 ， 
在 例 18.11 中 看 到 的 事务 版 本 确实 遵从 2PL 条 件 。 注 意 ， 在 前 五 个 动作 中 封锁 4 和 B， 并 且 在 接 
下 来 的 五 个 动作 中 解锁 ; 7 的 行为 类 似 。 如 果 比 较 图 18-12 和 图 18-13， 我 们 可 以 看 到 两 阶段 封 
锁 事 务 如 何 同调 度 器 进行 正确 的 交互 以 保证 一 致 性 ， 而 非 2PL 事 务 允许 不 一 致 的 ( 因而 非 冲突 
可 串 行 化 ) 行为 。 口 


18.3.4 两 阶段 封锁 发 挥 作用 的 原因 
在 例子 中 我 们 所 看 到 的 由 2PL 带 来 的 好 处 通常 都 成 立 ， 这 一 点 是 正确 的 ， 却 绝 不 是 显 而 易 
见 的 。 直观 地 说 ， 每 个 两 阶段 封锁 事务 可 以 被 认为 是 在 其 提出 第 一 个 解锁 请 求 的 瞬间 完整 执行 ， 
如 图 18-14 所 示 。 与 2PL 事 务 的 调度 冲突 等 价 的 品行 调度 是 事务 顺序 与 其 第 一 个 解锁 顺序 相同 
的 串 行 调度 。。 
在 此 瞬间 执行 


已 获得 的 锁 


时 间 一 > 
图 18-14 每 个 两 阶段 封锁 事务 有 一 个 可 以 认为 它 瞬间 执行 的 时 刻 


o 某 些 调度 还 存在 其 他 的 冲突 等 价 串 行 调度 。 
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我 们 将 说 明 如 何 把 由 一 致 的 两 阶段 封锁 事务 构成 的 任意 合法 调度 $ 转 换 为 冲突 等 价 的 串 行 
调度 。 这 一 转换 最 好 用 $ 中 事务 数 a 上 的 归纳 来 描述 。 在 下 面 的 内 容 中 , 补 记 冲突 等 价 问题 只 针 
对 读 写 动作 是 非常 重要 的 。 一 旦 将 读 和 写 串 行 排序 ， 我 们 就 可 以 根据 不 同事 务 的 需要 在 它们 有 周 
围 加 上 封锁 和 解锁 动作 。 由 于 每 个 事务 在 其 结束 前 释放 所 有 锁 ， 因 此 我 们 知道 该 串 行 调度 是 合 
法 的 。 

基础 : 如 果 n = 1， 则 没有 什么 需要 做 的 ; $ 已 经 是 一 个 串 行 调 度 。 

归纳 : 假设 5 涉及 n 个 事务 Ti,T;…,T,， 并 设 T 是 在 整个 中 有 第 一 个 解锁 动作 例如 ui (X) ) 
的 事务 。 我 们 断言 ， 将 ZT; 的 所 有 动作 不 经 过 任何 冲突 动作 而 向 前 移动 到 调度 的 开始 是 可 能 的 。 

考虑 T; 的 某 个 动作 ， 例 如 wi (7)。5 中 这 一 动作 前 可 能 有 冲突 的 动作 例如 wj (YI? MRA, 
那么 在 调度 S 中 ，w (YAM: (DD) 必 然 交 错 出 现在 这 样 一 个 动作 序列 中 

cu wP; os Ds LO; os wis e 
既然 了 是 第 一 个 解锁 的 ，$ 中 心 (加 必然 在 上 ( 功 前 ; 也 就 是 说 ，5 可 能 形 如 : 
3 wO; es w es wy; s LO; s w; 937 
或 wu (3) 甚 至 可 能 出 现在 wj (DD) 前。 不 管 哪 种 情况 ，wu; ORREN, RERET 不 像 我 们 假 
定 的 那样 是 两 阶段 封锁 的 。 尽 管 我 们 只 证 明了 写 的 冲突 对 不 存在 ， 同 样 的 证 明 也 适用 于 任意 一 
对 由 来 自 ZT: 的 一 个 动作 和 来 自 T 的 一 个 动作 构成 的 可 能 冲突 的 动作 。 

我 们 的 结论 是 ， 确 实 能 够 通过 先 使 用 非 冲突 的 读 写 动 作 的 交换 ， 然 后 恢复 7 的 封锁 和 解锁 

动作 ， 将 五 的 所 有 动作 向 前 移动 到 $ 的 开始 。 也 就 是 说 ，4 能 被 写作 如 下 形式 

( 工 的 动作 ) (其 他 n - 1 个 事务 的 动作 ) 
由 -~ 1 个 事务 构成 的 后 半 部 分 仍然 是 一 致 的 2PL 事 务 的 一 个 合法 调度 ， 因 此 归纳 假设 在 其 上 适 
用 。 我 们 将 后 半 部 分 转换 为 冲突 等 价 串 行 调度 ， 而 我 们 现在 已 经 证 明 整 个 8 是 冲突 可 串 行 化 的 。 
18.3.5 习题 

习题 18.3.1 下 面 是 两 个 事务 , 其 中 给 出 了 封锁 请 求 和 事务 的 语义 。 回忆 一 下 习题 18.2.1 中 ， 

这 些 事务 具有 特殊 的 性 质 ， 即 它们 被 调度 的 方式 可 以 是 非 冲 突 可 串 行 化 的 ， 但 由 于 其 语义 

MAE Dy BAT LAY 


T: L(A); r(A); A := A+2; wi (A); ui(A); L(B); rı(B); B := B*3; w1(B); 


ui (B); 


= 


Tə: A r2(B); B := B*2; wo(B); ue(B); lo(A); r2 (A); A := A+3; 202(4); 
在 下 面 的 问题 中 ， 只 考虑 读 写 动作 的 调度 ， 而 不 要 考虑 封锁 、 解 锁 或 赋值 步骤。 
* a) 给 出 被 锁 禁 止 的 调度 的 一 个 例子 。 
l b) 在 8 个 读 写 动作 的 [4] = 70 种 顺序 中 ， 有 多 少 是 合法 的 调度 〔 即 它们 被 锁 所 允许 ) ? 
c) 在 合法 调度 中 ， 有 多 少 是 可 串 行 化 的 〈 根据 所 给 事务 语义 ) 2 
d) 在 那些 合法 的 可 串 行 化 调度 中 ， 有 多 少 是 冲突 可 串 行 化 的 ? 
! e 由 于 7 和 了 不 是 两 阶段 封锁 的 ， 我 们 能 够 预见 某 些 非 可 串 行 化 行为 可 能 发 生 。 是 否 
有 非 可 串 行 化 的 合法 调度 ? 如 果 有 ， 给 出 一 个 例子 ; 如 果 没 有 ， 解 释 原因 。 938 
* 习题 18.3.2 下 面 是 习题 18.3.1 中 的 事务 ， 但 所 有 解锁 都 移 到 了 末尾 ， 从 而 使 它们 成 为 两 阶 
RARE 


O 
Ks] 
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Ti: L(A); r(A); A := A+2; w (A); 1(B); r1(B); B := B*3; w (B); ui (A); 


w (B); 


= 


Ty: l(B); r2(B); B := B¥2; w2(B); (2(A); r2(4); A := A+3; wa(A); u2(B); 

u2(A); 
这 些 事务 所 有 的 读 写 动 作 的 合法 调度 有 和 多少? 
习题 18.3.3 对 习题 18.2.4 中 的 每 个 调度 ， 假 设 每 个 事务 刚好 在 读 或 写 每 个 数据 库 元 素 以 前 
获得 该 元 素 上 的 锁 ， 并 且 每 个 事务 在 最 后 一 次 访问 一 个 元 素 后 立即 释放 其 锁 。 说 明 封 锁 调 
度 器 对 这 些 调 度 中 的 每 一 个 会 怎么 做 ; 即 哪 些 请 求 将 被 推迟 ， 而 什么 时 候 它们 又 将 被 允许 
继续 ? 
习题 18.3.4 ”对 下 面 描述 的 每 个 事务 ， 假 设 我 们 为 每 个 被 访问 的 数据 库 元 素 插 和 人 一 个 封锁 
动作 和 一 个 解锁 动作 。 

* a) ri(A); wi(B) 

b) r(A); wa(4); w2(B) 
说 明 如 下 几 种 情况 下 封锁 、 解 锁 、 读 和 写 动作 各 有 和 多少 顺 序 : 

1) 一 致 的 并 且 两 阶段 封锁 的 。 

2) 一 致 的 但 不 是 两 阶段 封锁 的 。 

3) 不 一 致 的 但 是 两 阶段 封锁 的 。 

4) 既 不 是 一 致 的 也 不 是 两 阶段 封锁 的 。 


死 锁 的 风险 
两 阶段 封锁 一 个 未 解决 的 问题 是 死 锁 的 可 能 性 ， 即 调度 器 迫使 几 个 事务 永远 地 等 待 
另 一 个 事务 持 有 的 锁 。 例 如 ， 考 虑 例 18.11 中 的 2PL 事 务 ， 但 将 用 改 为 先 对 有 操作 ; 


Ti: L(A); 71 (A); A := A+100; wi (A); L (B); u (A); 71(B); B := B+100; 
wi(B); u1(B); 


Tz: 12(B); r2(B); B := B*2; we(B); 12(A); u2(B); r2(A); A := A*2; 
we(A); u2(A); 


这 些 事务 动作 的 一 个 可 能 的 间隔 为 : 
Ty 72 


(A); r(A); 

(2(B); r2(B); 
A := A+100; 

B := B*2; 
wy (A); f 

w2(B); 
L(B) 被 拒绝 12(4) 被 拒绝 


现在 ， 两 个 事务 都 不 能 继续 进行 ， 而 它们 将 永远 等 待 。 在 19.3 节 ， 我 们 将 讨论 这 种 情况 的 
补救 方法 。 但 是 ， 请 注意 让 两 个 事务 都 继续 进行 是 不 可 能 的 ， 因 为 如 果 我 们 这 样 做 ， 数 
据 库 的 最 终 状态 就 不 可 能 满足 4= 有 。 





18.4 用 多 种 锁 方 式 的 封锁 系统 
18.3 节 的 封锁 模式 阐明 了 在 封锁 背后 的 重要 思路 ， 但 它 过 于 简单 ， 因 而 不 是 一 个 实用 的 模 
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式 。 主 要 的 问题 在 于 ， 事 务 7 即 使 只 想 读数 据 库 元 素 X 而 不 写 它 ， 也 必须 获得 X 上 的 锁 。 我 们 不 
能 避 开 锁 的 获得 ， 因 为 如 果 不 获得 ， 当 7 活跃 时 另 一 个 事务 可 能 为 X 号 入 一 个 新 值 而 导致 非 可 串 
行 化 行为 。 另 一 方面 ， 只 要 事务 都 不 允许 写 X， 那 么 不 允许 几 个 事务 同时 读 X 就 是 毫 无 理由 的 。 

这 促使 我 们 介绍 第 一 个 也 是 最 常用 的 封锁 模式 ， 这 种 模式 中 有 两 种 不 同 的 锁 : 一 种 用 于 读 
〈 称 做 “共享 锁 ” 或 “ 读 锁 ” )， 另 一 种 用 于 写 ( 称 做 “排他 锁 ” 或 “ 写 锁 ”)。 接 着 我 们 要 看 一 
种 改进 的 模式 ， 其 中 事务 允许 获得 共享 锁 ， 并 在 以 后 将 其 “升级 ”为 排他 锁 。 我 们 还 将 考虑 
“ 增 量 锁 “， 它 专门 处 理 对 数据 库 元 素 进行 增 量 的 写 操作 ; 重要 的 区 别 在 于 增 量 操作 可 交换 ， 而 
通常 的 写 操作 并 非 如 此 。 这 些 例子 把 我 们 引 到 封锁 模式 的 一 种 使 用 “ 相 容 性 矩阵 ”的 通用 记 法 ， 
“ 相 容 性 矩阵 ”表明 当 数 据 库 元 素 上 存在 其 他 锁 时 该 数据 库 元 素 上 可 以 被 授予 什么 样 的 锁 。 
18.4.1 共享 锁 与 排他 锁 

由 于 同一 数据 库 元 素 上 的 两 个 读 操 作 并 不 产生 冲突 ， 因 而 没有 必要 采用 封锁 或 其 他 并 发 控 
制 机 制 来 强制 读 操作 以 某 种 特定 的 顺序 发 生 。 正 如 前 面 提 到 的 ， 我 们 仍然 需要 封锁 我 们 将 要 读 
取 的 元 素 ， 因 为 写 该 元 素 的 事务 是 必须 被 禁止 的 。 但 是 ， 在 写 时 我 们 需要 的 锁 比 在 读 时 需要 的 
锁 要 “ 强 ”， 因 为 它 既 禁止 读 又 禁止 写 。 

因此 让 我 们 考虑 使 用 两 种 不 同类 型 的 锁 的 封锁 调度 器 : 共享 锁 和 排他 锁 。 直 观 地 说 ， 对 任 
何 数 据 库 元 素 X， 其 上 或 者 可 以 有 一 个 排他 锁 ， 或 者 没有 排他 锁 而 有 任意 数目 的 共享 锁 。 如 果 
我 们 想 要 写 X， 则 和 需要 有 X 上 的 一 个 排他 锁 。 可 以 推测 ， 如 果 想 要 读 X 而 不 写 它 ， 那 么 我 们 倾向 
于 只 获得 共享 锁 。 

我 们 将 使 用 sl; OKER “BST; 申请 数据 库 元 素 X 上 的 一 个 共享 锁 ”， 而 用 zu, (加 来 表示 
“事务 T; 申请 数据 库 元 素 X 上 的 一 个 排他 锁 ”。 我 们 继续 用 wu (BART; ABIX; 即 它 释放 自己 在 X 
上 持 有 的 不 管 什么 样 的 锁 。 

事务 的 一 致 性 、 事 务 的 2PL 和 调度 的 合法 性 这 三 种 要 求 中 的 每 一 种 在 共享 /排他 封锁 系统 中 
都 有 各 自 的 对 应 项 。 这 里 我 们 将 这 些 要 求 概括 为 ; 

1. 事务 的 一 致 性 : 如 果 不 是 持 有 排他 锁 就 不 能 写 ， 并 且 如 果 不 是 持 有 某 个 锁 就 不 能 读 。 更 
精确 地 说 ， 在 任何 事务 7 中 ， 

(a) EEr (X)Z AYA sl, (XY (CX), WA PAH x). 
b) 写 动作 wi OZAWA (X), BPR u. 

所 有 锁 都 必须 跟 一 个 相同 元 素 的 解锁 。 

2. 事务 的 两 阶段 封锁 : 封锁 必须 在 解锁 之 前 。 更 精确 地 说 ， 在 任意 一 个 两 阶段 封锁 事务 7 
中 ， 任 何 si; (2) 或 x1:(X) 动 作 前 不 能 有 wi (2 动作 。 

3. 调度 的 合法 性 : 一 个 元 素 或 者 可 以 被 一 个 事务 排他 地 封锁 ， 或 者 可 以 被 几 个 事务 共享 地 
封锁 , 但 不 能 二 者 兼 而 有 之 。 更 精确 地 讲 ， 

(a) WRL (名 出 现在 调度 中 ， 那 么 对 某 个 j 关 i， 后 面 不 能 再 有 xl; ORLO, RIEPEN 
人 了 ui(X)。 . 
(b) 如 果 sli (0) 出 现在 调度 中 ， 那 么 后 面 不 能 再 有 xl(X)， 除 非 中 间 插 入 了 ww (X)。 

请 注意 ， 我 们 人 允许 一 个 事务 在 同一 个 元 素 上 既 申 请 并 持 有 共享 锁 又 申请 并 持 有 排他 锁 ， 只 
要 它 这 样 做 不 与 其 他 事务 的 锁 发 生 冲 突 。 如 果 事 务 能 预先 知道 自己 对 锁 的 需求 ,那么 肯定 只 会 
请 求 排他 锁 。 但 如 果 锁 的 需求 是 不 可 预测 的 ， 那 么 可 能 事务 在 不 同 的 时 候 申 请 共享 锁 和 排他 锁 。 

例 18.13 让 我 们 看 一 下 使 用 共享 锁 和 排他 锁 时 ， 以 下 两 个 事务 的 一 个 可 能 的 调度 : 


Ty: sh (A); rı(A); zh (B); r1(B); wi(B); ui (A); u, (B); 





Kel 
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Tz: sla(A); r2(A); sl2(B); r2(B); u2(A); u2(B); 


T, 和 7 都 读 4 和 B， 但 只 有 TI 写 B。 二 者 都 不 写 A。 





图 18-15 所 示 为 Ti 和 7 动作 的 一 个 交错 ， 其 中 一 一 一 
7T1 从 获得 4 上 的 共享 锁 开 始 。 接 着 7, 跟随 其 后 获 Ah fA); sb(A); r(A); 
得 4 和 B 上 的 锁 。 现 在 ，T 需 要 B 上 的 一 个 排他 锁 ， slo(B); r2(B); 
因为 它 既 要 读 B 又 要 写 B。 但 是 ， 它 不 能 获得 排他 | 7O BER A); wD) 
锁 ， 因 为 了 已 经 有 B 上 的 共享 锁 。 因 此 ， 调 度 器 追 zh (B); rı (B); wi(B); 
使 7 等 待 。 最 终 T 释 放 B 上 的 锁 。 这 时 ，TT 才 能 得 (A); u (B); 
以 完成 。 O 。 ”图 18-15 使 用 共享 锁 和 排他 锁 的 一 个 调度 


请 注意 图 18-15 中 产生 的 调度 是 冲突 可 串 行 化 的 。 冲 突 等 价 的 串 行 顺序 是 (五 ，mi )， 尽 管 
T 先 开始 。 尽 管 我 们 在 这 里 没有 证 明 ， 但 在 18.3.4 节 给 出 的 证 明 表 明 一 致 的 2PL 事 务 的 合法 调度 
是 冲突 可 串 行 化 的 ,论证 也 适用 于 具有 共享 锁 和 排他 锁 的 系统 。 在 图 18-15 中 ， 歹 在 九 前 解锁 ， 
所 以 我 们 能 够 预期 在 串 行 顺序 中 雹 位 于 Ti 前 。 同 样 ， 我 们 可 以 查看 图 18-15 中 的 读 写 动 作 ， 并 发 
现 可 以 将 ri (4) 交 换 到 7T, 的 所 有 动作 后 ， 但 不 能 将 wi (8) 移 到 12(B) 前 ， 而 如 果 在 某 个 冲突 等 价 的 
串 行 调度 中 TT 位 于 前， 那么 这 是 必要 的 。 
18.4.2 HARE 

如 果 我 们 使 用 几 种 封锁 方式 ， 那 么 调度 器 需要 一 个 关于 在 已 知 同一 数据 库 元 素 上 可 能 已 经 
持 有 的 锁 的 情况 下 何 时 能 同意 封锁 请 求 的 策略 。 尽 管 共享 /排他 系统 比较 简单 ， 我 们 将 会 看 到 
一 些 复杂 得 多 的 封锁 方式 系统 也 在 使 用 中 。 我 们 因此 将 在 下 面 以 简单 的 共享 /排他 系统 为 背景 ， 
介绍 描述 锁 授 予 策略 的 记 法 。 

相 容 性 矩阵 中 对 应 每 种 封锁 方式 有 一 行 和 一 列 。 行 对 应 于 数据 库 元 素 X 上 另 一 事务 已 经 持 

有 的 锁 ， 而 列 对 应 于 X 上 申请 的 锁 方式 。 使 用 相 容 性 
甜 阵 做 出 锁 授 予 决定 的 规则 是 : 

* 我 们 能 够 授予 Cc 方式 的 锁 ， 当 且 仅 当 对 于 其 他 
事务 在 X 上 已 经 有 的 每 个 R 方 式 锁 对 应 的 每 一 
行 R， 在 C 列 上 有 一 个 “是 ”。 

例 18.14 图 18-16 是 共享 锁 (S) 和 排他 锁 CX) 图 18-16 共享 锁 和 排他 锁 的 相 容 性 矩阵 

的 相 容 性 矩阵 。 关 于 S$ 的 列 说 明 ， 如 果 一 个 数据 库 元 

素 上 当前 被 持 有 的 锁 只 有 共享 锁 ， 那 么 我 们 可 以 授予 该 元 素 上 的 共享 锁 。 关 于 X 的 列 说 明 ， 只 
有 在 当前 其 他 任何 锁 都 不 被 持 有 时 ， 我们 才能 授予 一 个 排他 锁 。 请 注意 这 些 规则 是 如 何 反 映 这 
一 封锁 系统 中 调度 合法 性 的 定义 的 。 口 


18.4.3 锁 的 升级 

占有 X 上 的 共享 锁 的 事务 7 对 其 他 事务 来 说 是 “友好 的 ”， 因 为 在 7 被 允许 访问 X 的 同时 其 他 
事务 也 被 允许 访问 xX。 因此， 我 们 可 能 很 想 知道 ， 如 果 一 个 想 要 读 X 并 写 人 新 值 的 事务 T 首 先 获 
得 X 上 的 一 个 共享 锁 ， 而 仅 在 后 来 当 7 准备 好 写 人 新 值 时 将 锁 升 级 为 排他 的 《 即 除了 它 在 X 上 已 
经 持 有 的 共享 锁 外 再 申请 X 上 的 一 个 排他 锁 )， 这 样 是 否 更 友好 一 些 。 没 有 理由 阻止 事务 在 同一 
数据 库 元 素 上 对 不 同方 式 的 锁 提 出 申请 。 我 们 沿袭 u; (释放 X 上 事务 T 持 有 的 所 有 锁 的 惯例 ， 
尽管 在 需要 用 到 的 时 候 我 们 可 以 引入 与 方式 相关 的 解锁 动作 。 

例 18.15 ”在 下 面 的 例子 中 ， 事 务 T 可 以 和 TT 并 发 地 执行 计算 ， 如 果 T 最 初 在 B 上 取得 排他 





SS Se 


锁 , 则 这 是 不 可 能 的 。 这 两 个 事务 是 : 


Ti: sh(A); 71 (A); sh (B); ri (B); 2l,(B); wi (B); ta(4)i u (B); 
To: sl2(A); re(A); slo(B); ro(B); u2(A); ue(B); 


这 里 ,Ti 读 4 和 B， 并 对 它们 执行 某 种 ( 可 能 很 元 长 的 ) 计算 ， 最 终 使 用 其 结果 来 为 8 写 人 新 值 。 
请 注意 ，T7 先 获得 B 上 的 一 个 共享 锁 ， 而 后 来 ， 当 它 完 成 涉及 4 和 B 的 计算 后 ， 再 申请 B 的 一 个 
APB, BHT RRAMB, (RE, 

图 18-17 给 出 了 这 些 动 作 一 个 可 能 的 调度 。 工 在 Ti 前 获得 B 上 的 共享 锁 ， 但 在 第 四 行 ，T 也 
能 以 排他 方式 封锁 8B。 因此 ,7T, 有 了 A 和 8B， 能 够 使 用 它们 的 值 进行 计算 。 只 有 等 到 TT 试图 将 其 


在 8 上 的 锁 升级 为 排他 的 时 ， 调 度 器 才 必须 拒绝 这 一 请 7, 7 

求 ， 并 迫使 1 等 待 7 释放 它 在 B 上 的 锁 。 至 此 ，7 获 得 shay 

它 在 B 上 的 排他 锁 ， 然 后 完成 。 2 
请 注意 ， 如 果 也 最 初 在 读 B 前 就 请 求 B 上 的 排他 锁 ， shi(B); rı (B); 

那么 这 一 请 求 将 被 拒绝 ， 因 为 7 已 经 有 B 上 的 共享 锁 。 DEEE (A) lD) 

Zi 在 没有 读 到 8 的 情况 下 不 能 执行 其 计算 ， 因 此 在 7 释 zl (B); wi(B); 





放 其 锁 后 Ti 有 更 多 的 事情 需要 做 。 所 以 ， 只 使 用 排他 u (A); wo(B) 
BRIT ERA E CEIR ME 口 图 18-17 锁 的 升级 允许 更 多 的 并 发 操作 


例 18.16 但 是 ， 不 加 区 别 地 使 用 升级 将 会 引入 新 的 并 且 可 能 更 严重 的 死 锁 。 假 设 T. 和 TT 分 
别 读数 据 库 元 素 4， 并 为 4 写 人 新 值 。 如 果 两 个 事务 都 使 用 升级 方法 ， 首 先 获得 4 上 的 共享 锁 然 
后 将 其 升级 为 排他 锁 , 那么 只 要 7 和 7 几乎 同时 开始 ， 
图 18-18 所 示 的 事件 序列 就 会 发 生 。 

7 和 7 都 能 得 到 4 上 的 共享 锁 。 接 着 ， 它 们 都 试图 
升级 到 排他 锁 ， 但 是 由 于 另 一 个 事务 在 4 上 有 共享 锁 ， P(A) 被 拒绝 
调度 器 迫使 它们 中 的 每 一 个 都 等 待 。 因 此 ， 一 者 都 不 
能 取得 进展 ， 它 们 各 自 都 会 永远 等 待 ， 或 者 等 到 系统 
发 现存 在 死 锁 ， 并 中 止 两 个 事务 中 的 一 个 ， 及 给 另 一 个 事务 4 上 的 排他 锁 。 口 


18.4.4 更 新 锁 

通过 使 用 第 三 种 称 为 更 新 镇 的 封锁 方式 ， 有 办 法 避免 例 18.16 中 的 死 锁 问题 。 更 新 镇 ul; (x) 
只 给 予 事务 7; 读 X 而 不 是 写 X 的 权限 。 但 是 ， 只 有 更 新 锁 能 在 以 后 升级 为 写 锁 ; 读 锁 是 不 能 升级 
的 。 当 X 上 已 经 有 共享 锁 时 我 们 可 以 授予 X 上 的 更 新 锁 , 但 一 旦 X 上 有 了 更 新 锁 ， 我们 就 禁止 在 
X 上 加 其 他 任何 种 类 (共享 、 更 新 或 排他 ) 的 锁 。 其 原因 是 ， 如 果 我 们 不 拒绝 这 样 的 锁 ， 那 么 
更 新 者 可 能 由 于 X 上 总 有 其 他 的 锁 而 永远 没有 机 会 升级 到 排他 锁 。 

这 一 规则 导致 一 个 不 对 称 的 相 容 性 矩阵 ， 因 为 更 新 锁 〈U ) 在 我 们 申请 它 时 看 起 来 像 共享 
锁 ， 而 当 我 们 已 经 持 有 它 时 看 起 来 像 排 他 锁 。 因 此 ， 关 于 S 和 U 的 列 相 同 ， 关 于 和 Xx 的 行 相同 。 
该 矩阵 如 图 18-19 所 示 。 。 

例 18.17 更 新 锁 的 使 用 对 例 18.15 不 会 产生 影响 。 作 为 其 第 三 个 动作 ， 工 将 获得 B 上 的 更 新 





zlz(4) 被 拒绝 
图 18-18 两 个 事务 的 升级 可 能 导致 死 锁 


@ 但 请 记 住 ， 还 有 一 个 关于 调度 合法 性 的 条 件 在 这 个 矩阵 中 没有 反映 出 来 ; 尽管 我 们 通常 并 不 禁止 一 个 事务 在 
同一 元 素 上 持 有 多 个 锁 ， 在 元 素 X 上 持 有 共享 锁 而 不 是 更 新 锁 的 事务 不 能 被 授予 X 上 的 排他 锁 。 
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锁 ， 而 不 是 共享 锁 。 但 是 更 新 锁 可 以 被 授予 ， 因 为 B 上 被 持 

有 的 只 有 共享 锁 ， 与 图 18-17 中 相同 的 动作 序列 将 会 发 生 。 
但 是 ， 更 新 锁 解 决 了 例 18.16 中 的 问题 。 现 在 ， 五 和 7 都 

首先 申请 4 上 的 更 新 锁 而 只 在 后 来 获得 排他 锁 。T, 和 Ts 可 能 


的 描述 为 : 图 18-19 共享 锁 、 排 他 锁 和 更 
Ti: uh (A); r1(A); zh (4); wi (A); ui (A); LAAT HER 





Tz: ul2(A); r2(A); zla (A); we(A); u2(4); 


与 图 18-18 对 应 的 事件 序列 如 图 18-20 所 示 。 现 在 ,请 求 4 上 的 更 新 锁 的 第 二 个 事务 被 拒绝 。7 
被 允许 完成 ， 然 后 了 可 以 进行 。 这 一 封锁 系统 有 效 地 阻碍 了 Ti 和 7T2 的 并 发 执行 ， 但 在 这 个 例子 
中 ,任何 相当 数量 的 并 发 执行 或 者 会 导致 死 锁 ， 或 者 会 导致 不 一 致 的 数据 库 状 态 。 oO 


Tı To 
ul) (A); 71(A); 
ul( A) :被 拒 绝 


zh (A); wi (A); u1(A); 


ul2(A); r2 (A); 
tl2(A); we(A); ue(A); 


图 18-20 使 用 更 新 锁 的 正确 执行 





18.4.5 增 量 锁 

另 一 类 有 趣 的 、 在 某 些 情况 下 很 有 用 的 锁 是 “ 嫉 量 锁 "。 很 多 事务 都 只 通过 增加 或 减少 存 
储 的 值 来 对 数据 库 进行 操作 。 例 如 : 

1) 把 钱 从 一 个 银行 账户 转 到 另 一 个 账户 的 事务 。 

2) 出 售 飞机 票 并 减少 该 航班 上 可 获得 的 座位 计数 的 事务 。 
增 量 动作 一 个 有 趣 的 性 质 是 这 些 动作 相互 之 间 是 可 交换 的 ， 因 为 如 果 两 个 事务 都 给 同一 个 数据 
库 元 素 加 上 常数 ， 谁 先 做 是 无 关 紧要 的 ， 正 如 图 18-21 所 示 的 数据 库 状 态 转换 图 所 表明 的 那样 。 
男 一 方面 ， 增 量 与 读 或 写 都 不 能 交换 ;如 果 在 4 增加 以 前 或 以 后 读 它 ， 得 到 的 值 是 不 同 的 ， 而 
如 果 在 其 他 事务 为 4 写 入 新 值 以 前 或 以 后 增加 4， 则 在 数据 库 中 也 会 得 到 不 同 的 4 值 。 


INC(A, 10) 








INC(A, 2) 
图 18-21 两 个 增 量 动作 可 交换 ， 因 为 最 终 数据 库 状态 不 依赖 于 哪个 先 做 


让 我 们 将 增 量 动作 作为 事务 中 一 种 可 能 的 动作 引入 ， 写 作 INC ( A，c )。 非 形式 地 表述 ， 
这 一 动作 将 常数 c 加 到 数据 库 元 素 4 上 ， 我 们 假设 4 是 单个 数 。 请 注意 c 可 以 是 负 的 ， 这 种 情况 下 
我 们 实际 上 是 在 减少 4。 在 实践 中 ， 我 们 将 INC 施 加 到 元 组 的 一 个 组 成 成 分 上 ， 元 组 自身 而 并 
非 其 成 分 之 一 是 可 封锁 的 元 素 。 

更 形式 化 地 讲 ， 使 用 INC (A, c) 表示 以 下 步骤 的 原子 执行 : READ(RA,t it: -cycl 
WRITE (A， 上 七 ) ;。 我 们 不 准备 讨论 用 来 使 这 一 操作 原子 地 执行 的 硬件 和 /或 软件 机 制 ， 但 是 我 





们 应 该 知道 这 种 形式 的 原子 性 位 于 比 通 过 封锁 支持 的 事务 的 原子 性 更 低 的 层次 上 。 

与 增 量 动作 对 应 ， 我 们 需要 一 个 增 量 锁 。 我 们 将 用 il; (0) 表示 TT 请 求 X 上 的 增 量 锁 这 一 动作 。 
对 事务 T; 在 数据 库 元 素 X 上 增加 某 个 常数 的 动作 ， 我 们 还 将 使 用 简 记 法 inci (X); 具体 常数 无 关 
紧要 。 

增 量 动作 和 增 量 锁 的 存在 需要 我 们 对 自己 关于 一 致 的 事务 、 冲突 和 合法 调度 的 定义 做 一 些 
修改 。 这 些 修改 包括 : 

a) 一 致 的 事务 只 有 在 它 持 有 XX 上 的 增 量 锁 时 才能 在 X 上 进行 增 量 动作 。 但 增 量 锁 并 不 能 赋 
予 读 或 写 动 作 的 权力 。 

b) 在 一 个 合法 的 调度 中 ， 任 何 时 候 都 可 以 有 任意 多 个 事 
务 在 X 上 持 有 增 量 锁 。 但 是 ， 如 果 某 个 事务 持 有 X 上 的 增 量 
锁 ， 那 么 其 他 事务 不 能 同时 在 X 上 既 持 有 共享 锁 又 持 有 排他 
锁 。 这 些 要 求 可 以 用 图 18-22 所 示 的 相 容 性 抢 阵 表示 ， 其 中 7 
表示 一 个 增 量 方式 的 锁 。 

c) M4i, inc (2 动作 既 与 7; (X) 溃 突 又 与 wj (X) 冲 突 ， 但 
Hin (ORR. 

$118.18 ”考虑 两 个 事务 ， 每 一 个 都 读数 据 库 元 素 4 然后 增加 了 8。 可 能 它们 将 4 加 到 B 上 ， 或 
者 它们 在 8 上 增加 的 常数 以 某 种 方式 依赖 于 A。 


Ti: sl, (A); 71 (A); il,(B); inc; (B); u (A); ui (B); 





图 18-22 共享 锁 、 排 他 锁 和 
增 量 锁 的 相 容 性 矩阵 


Ty: gl2(A); rz(4)i ila(B); ince(B); u2(A); u2(B); 


请 注意 这 些 事务 都 是 一 致 的 ， 因 为 它们 只 在 有 增 量 锁 时 执行 增 量 操作 ， 而 且 只 在 有 共享 锁 时 执 
行 读 操 作 。 图 18-23 给 出 Ti 和 7, 一 种 可 能 的 交错 。 


Tı 
THEA, BTA LIMB. BE, TER sh nA) 
时 人 允许 获得 它 在 8 上 的 增 量 锁 并 继续 执行 。 LUBY tent 
请 注意 ， 在 图 18-23 中 ， 调 度 器 不 需要 推迟 任 ih(B); incı(B); 
何 请 求 。 例 如 ,假设 Ti 将 B 增 加 4， 而 7 将 B 增 加 24。 uan O O 


它们 可 以 按照 两 种 顺序 中 的 任何 一 种 执行 ， 因 为 4 - i 
的 值 不 变 ， 因 而 增 量 动作 也 可 以 按照 两 种 顺序 中 E1823 ASRS RAE 
的 任何 一 种 执行 。 l 
换 名 话说， 我 们 可 以 看 一 看 图 18-23 中 非 封 锁 动 作 的 序列 ; ENE: 
S:rı (A);r2 (A);inc2 (B);inc, (B); 
我 们 可 以 把 最 后 一 个 动作 inc1(8) 移 到 第 二 个 位 置 , 因为 它 与 同一 元 素 的 另 一 个 增 量 动作 不 冲突 ， 
而 且 肯 定 与 另 一 个 元 素 的 读 动 作 不 冲突 。 这 一 系列 交换 表明 8 冲突 等 价 于 串 行 调度 
ni(4);inci(B);r2(4);incxa(B8)。 类 似 地 ， 我 们 可 以 通过 交换 把 第 一 个 动作 r.(4) 移 到 第 三 个 位 置 ， 得 
到 一 个 工 在 工 前 的 串 行 调度 。 O 
18.46 习题 
习题 18.4.1 对 下 面 的 事务 TI、7T, 和 TT; 的 每 一 个 调度 ， 
a) rı(A); r2(B); r3(C); wi(B); we(C); wa(D); 
b) rı(A); r2(B); r3(C); wi(B); we (C); ws(A); 
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cj ri(A); ra(B); r3(C); rı(B); ra(C); r3(D); wi(C); we2(D); ws (E); 
* d) 71 (A); r2(B); r3(C); ri(B); r2(C); ra(D) wi (A); wa(B); w3(C); 
e) rı(4); ra(B); r3(C); m1 (B); ro(C); 73(A); wi (A); wo(B); w3(C); 


做 下 列 事情 : 


1) 插入 共享 锁 和 排他 锁 ， 并 插入 解锁 动作 。 如 果 一 个 读 动作 后 没有 同一 事务 对 同一 元 
素 的 写 动 作 ， 请 在 该 读 动作 前 紧 靠 它 的 地 方 放 一 个 共享 锁 。 在 其 他 的 每 一 个 读 动 作 
或 写 动作 前 放 一 个 排他 锁 。 在 每 个 事务 的 末尾 放 上 必需 的 解锁 。 
2) 说 明 支 持 共享 锁 和 排他 锁 的 调度 器 运行 每 个 调度 时 会 发 生 什么 。 
3) 以 一 种 允许 升级 的 方式 插入 共享 锁 和 排他 锁 。 在 每 个 读 动 作 前 放 一 个 共享 锁 ， 在 每 
一 个 写 动作 前 放 一 个 排他 锁 ， 并 在 事务 的 末尾 放 上 必需 的 解锁 。 
4) 说 明 (3) 中 的 支持 共享 锁 、 排 他 锁 和 升级 的 调度 器 运行 每 个 调度 时 会 发 生 什么 。 
5) 插入 共享 锁 、 排 他 锁 和 更 新 锁 以 及 解锁 动作 。 在 每 一 个 不 会 升级 的 读 动 作 前 放 一 个 
共享 锁 ， 在 每 一 个 将 升级 的 读 动 作 前 放 一 个 更 新 锁 ， 并 在 每 一 个 写 动作 前 放 一 个 排 
他 锁 。 在 事务 的 末尾 照例 放 上 解锁 。 
6) 说 明 (5) 中 的 支持 共享 锁 、 排 他 锁 和 更 新 锁 的 调度 器 运行 每 个 调度 时 会 发 生 什 么 。 
习题 18.4.2 考虑 两 个 事务 : 
Ty: 71(A); rı(B); ine: (A); inci (B); 
Tz: r2(A); r2(B); ine2(A); inee(B); 
回答 以 下 问题 ， 
* a) 这 些 事务 的 交错 中 有 多 少 是 可 串 行 化 的 ? 
b) 如 果 丈 中 增 基 动作 的 顺序 反 过 来 [ 即 训 cx(B) 后 面 是 icx(4) ] ， 有 多 少 可 串 行 化 的 交 
错 ? 
习题 18.4.3 对 下 面 的 每 个 调度 ， 在 每 个 动作 前 插入 适当 的 锁 ( 读 、 写 或 增 量 )， 并 在 事务 
末尾 插入 解锁 动作 。 然 后 说 明 该 调度 在 一 个 支持 这 三 类 锁 的 调度 器 上 运行 时 会 发 生 什么 。 
a) rı(A); r2(B); inci(B); inc2(O); wi (C); w2(D); - 
b) ri1(A); ro(B); ine: (B); inca(A); wi (C); w (D); 


c) inci (A); inc2(B); inci(B); ince(C); wi(C); we(D); 


习题 18.4.4 在 习题 18.1.1 中 ， 我 们 讨论 了 关于 航班 预订 的 一 个 假想 事务 。 如 果 事 务 管理 器 
可 以 获得 的 锁 包 括 共享 锁 、 排 他 锁 、 更 新 锁 和 增 量 锁 ， 那 么 在 事务 的 每 一 步 你 推荐 使 用 什 
么 锁 ? 
习题 18.4.5 PET an BRCM SIERIER. BBC (x, o) 
表示 以 下 步骤 的 原子 执行 : READ (X,t) ;tt:=cxt;WRIIE(X,t);。 我 们 也 可 以 引入 只 多 
许 乘 常数 因子 的 一 种 封锁 方式 。 

a) 给 出 读 、 写 和 乘 常数 锁 的 相 容 性 矩阵 。 

! b 给 出 读 、 写 、 增 量 和 乘 常数 锁 的 相 容 性 卸 阵 。 
习题 18.4.6 ”为 了 便于 讨论 ， 假 设 数据 库 元 素 是 二 维 向 量 。 我 们 在 向 量 上 可 以 执行 的 操作 
有 四 个 ， 每 一 个 有 它 自 己 的 锁 类 型 。 
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1) BRA HOE (XB )。 
2) 改变 沿 y 轴 的 值 (了 锁 )。 
3) 改变 向 量 的 角度 ( 4 锁 )。 
4) 改变 向 量 的 大 小 ( MM 锁 )。 
回答 以 下 问题 : 
* a) 哪些 操作 对 可 交换 ? 例如 ， 如 果 我 们 先 旋 转向 量 使 其 角度 为 120"， 然 后 将 x 坐标 变 
为 10， 这 和 先 将 x 坐标 变 为 10， 再 将 角度 变 为 120" 一 样 吗 ? 
b) 根据 你 对 (a) 的 回答 ， 这 四 类 锁 的 相 容 性 矩阵 是 怎样 的 ? 
L o 假设 我 们 改变 这 四 个 操作 ， 不 是 把 新 的 值 赋 给 一 个 量 ， 而 是 在 量 上 增加 ( 即 ，“ 在 x 
坐标 上 加 10”， 或 “ 顺 时 针 将 向 量 旋转 30””)。 这 时 相 容 性 矩阵 又 是 怎样 的 ? 
1 习题 18.4.7 这 里 有 一 个 丢失 了 一 个 动作 的 调度 ; 
r(A); r2(B); 272; wi(C); wa(A); 
你 的 问题 是 要 指出 某 种 类 型 的 什么 操作 可 以 替代 ???， 并 将 使 调度 不 可 串 行 化 。 对 以 下 的 
每 类 动作 ， 说 明 所 有 可 能 的 非 可 串 行 化 替代 : 
* a) 读 动作 。 
b) 写 动 作 。 
o0 更 新 动作 。 
d) BEE. 


18.5 封锁 调度 器 的 一 种 体系 结构 


看 过 几 种 不 同 的 封锁 机 制 后 ， 我 们 接 下 来 需要 考虑 使 用 这 些 模 式 之 一 的 调度 器 如 何 操作 。 
在 这 里 我 们 打算 只 考虑 基于 以 下 几 个 原则 的 一 个 简单 调度 器 : 

1. 事务 自身 不 会 申请 封锁 ， 或 我 们 不 能 依赖 于 事务 做 这 件 事 。 在 读 、 写 以 及 其 他 访问 数据 
的 动作 流 中 插入 锁 的 动作 是 调度 器 的 任务 。 

2. 事务 不 释放 锁 ， 而 是 调度 器 在 事务 管理 器 告诉 它 事 务 将 提交 或 中 止 时 释放 锁 。 

18.5.1 插入 锁 动作 的 调度 器 - 

图 18-24 所 示 为 一 个 由 两 部 分 构成 的 调度 器 ， 它 接受 来 自 事务 的 诸如 读 、 写 、 提 交 以 及 中 
下 这 样 的 请 求 。 调 度 器 维护 一 个 锁 表 ， 尽 管 在 图 中 锁 表 是 作为 第 二 级 存储 器 数据 ， 但 它 可 能 部 
分 地 或 全 部 位 于 主 存 中 。 通 常 ， 锁 表 使 用 的 主 存 不 是 用 于 查询 执行 和 日 志 的 缓冲 池 的 一 部 分 。 
相反 ， 锁 表 正 是 DBMS 的 另 一 组 成 部 分 ， 并 且 将 像 DBMS 的 其 他 代码 和 数据 那样 由 操作 系统 为 
其 分 配 空间 。 

事务 请 求 的 动作 通常 通过 调度 器 传送 并 在 数据 库 上 执行 。 但 是 在 某 些 情况 下 ， 事 务 等 待 一 
个 锁 而 被 推迟 ， 其 请 求 (暂时 ) 不 被 传送 到 数据 库 。 调 度 器 的 两 个 部 分 执行 如 下 动作 : 

1. 第 I 部 分 接受 事务 产生 的 请 求 流 ， 并 在 所 有 数据 库 访 问 操作 如 读 、 写 、 增 量 和 更 新 前 插 
人 适当 的 锁 动 作 。 数 据 库 访问 操作 接 下 来 被 传送 到 第 I[ 部 分 。 不 管 调度 器 使 用 什么 样 的 封锁 方 
式 集 合 ， 调 度 器 的 第 I 部 分 必须 从 其 中 选择 适当 的 封锁 方式 。 

2. 第 I 部 分 接受 由 第 I 部 分 传 来 的 封锁 和 数据 库 访 问 动作 序列 ， 并 正确 地 执行 它们 中 的 每 一 
个 。 如 果 第 I 部 分 接收 到 一 个 封锁 或 数据 库 访 问 请 求 ， 那 么 它 要 决定 提出 请 求 的 事务 7 是 否 由 
于 某 个 锁 不 能 被 授予 而 被 推迟 。 如 果 是 ， 那 么 这 个 动作 自身 被 推迟 并 被 加 入 一 个 最 终 必须 为 事 
务 7 执行 的 动作 列表 中 。 如 果 7 不 被 推迟 〔 即 前 面 它 所 申请 的 所 有 锁 已 经 被 授予 )， 那 么 
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(a) 如 果 动作 是 数据 库 访 问 ， 这 一 动作 被 传送 到 数据 库 并 被 执行 。 
(b) 如 果 第 HE 部 分 接收 到 一 个 封锁 动作 ， 它 将 查看 锁 表 以 决定 锁 是 否 能 被 授予 。 
a) 如 果 是 ， 则 修改 锁 表 ， 并 将 刚刚 授予 的 锁 包 括 进去 。 
b) 如 果 不 是 ， 那 么 锁 表 中 必须 加 入 一 项 以 表明 该 锁 已 经 被 申请 。 调 度 器 的 第 I 部 分 
接着 推迟 事务 7 进一步 的 动作 ， 直 到 出 现 像 锁 被 授予 这 样 的 时 候 。 


KASS 


READ (A); WRITE(B); 









COMMIT(T); © 


调度 器 ， 第 I 部 分 
a LOCK(A); READ(A); - 


调度 器 ， 第 I 部 分 


READ (A) ;WRITE(B) ; 










图 18-24 在 事务 请 求 流 中 插入 封锁 请 求 的 调度 器 


3. 当 事 务 7 提交 或 中 止 时 ， 事 务 管理 咒 将 通知 第 I 部 分 ， 于 是 第 [部 分 释放 7 持 有 的 所 有 的 锁 。 
如 果 有 事务 在 等 待 这 些 锁 中 的 任何 一 个 ， 第 I 部 分 将 通知 第 II 部 分 。 

4. 当 第 了 I 部 分 被 告知 某 个 数据 库 元 素 X 上 的 锁 可 以 获得 时 ， 它 决定 接 下 来 能 获得 X 上 的 锁 的 
一 个 或 多 个 事务 。 获 得 锁 的 这 个 (或 这 些 ) 事务 被 允许 尽 可 能 多 地 执行 它们 被 推迟 的 动作 ， 直 
BIE (11) 完成 或 到 达 另 一 个 不 能 被 授予 的 封锁 请 求 。 

例 18.19 ”如 果 像 18.3 节 中 那样 只 有 一 种 锁 ， 那么 调度 器 第 I 部 分 的 工作 很 简单 。 只 要 它 看 
见 数据 库 元 素 X 上 的 动作 ， 并 且 它 还 没有 为 该 事务 插入 X 上 的 封锁 请 求 ， 那 么 它 就 插入 这 样 的 
一 个 请 求 。 当 事务 提交 或 中 止 时 ， 第 I 部 分 释放 该 事务 的 锁 后 就 可 以 遗忘 关于 该 事务 的 一 切 ， 
所 以 第 I 部 分 所 需要 的 主 存 不 会 无 限 增长 。 

当 有 几 种 锁 时 ， 调 度 器 可 能 需要 预先 知道 同一 数据 库 元 素 上 将 发 生 什么 动作 。 让 我 们 用 例 
18.15 中 的 事务 重新 考虑 共享 一 排他 一 更 新 锁 的 情况 ， 下 面 我 们 写 这 些 事务 时 没有 给 出 其 中 的 
任何 锁 : 

Ti:ri(A); r1(B); wi(B); 

Tz:rXA); ro(B); 
传 给 调度 器 第 I 部 分 的 消息 不 仅 必须 包括 读 或 写 请 求 ， 还 必须 包括 关于 同一 元 素 上 将 有 动作 的 指 
示 。 特 别 地 ， 当 n(B) 被 送 来 时 ， 调 度 器 需要 知道 后 面 会 有 w1(B) 动 作 (或 可 能 有 这 样 的 动作 ， 如 
果 刀 的 代码 中 包含 分 支 的 话 )。 获 得 这 一 信息 的 方法 有 多 种 。 例 如 ， 如 果 事 务 是 一 个 查询 ， 那 
么 我 们 知道 它 不 会 写 任何 东西 。 如 果 事 务 是 一 个 SQL 数据 库 更 新 命令 ， 那 么 查询 处 理 器 能 预先 
确定 既 可 能 被 读 又 可 能 被 写 的 数据 库 元 素 。 如 果 事 务 是 一 个 采用 骨 人 式 SQL 的 程序 ， 那 么 编译 
器 能 访问 所 有 的 SQL 语句 (这 是 惟一 能 写 数 据 库 的 语句 )， 并 且 能 确定 可 能 被 写 的 数据 库 元 素 。 
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在 我 们 的 例子 中 ,假设 事件 按 图 18-17 的 顺序 发 生 。 那 么 Ti 首先 发 出 ri(4)。 由 于 将 来 不 会 
将 该 锁 升级 ， 调 度 器 在 ri(4) 前 插入 sl1(4)。 下 一 步 ， 来自 的 请 求 ( xr.(4) 和 r2(B) ) 到 达 调 度 器 。 
由 于 将 来 仍 不 会 有 升级 ， 所 以 第 I 部 分 发 出 动作 序列 $12(4); r2(4); sl2(B); rB) 

接着 ,动作 r1(8) 以 及 该 锁 可 能 升级 的 警示 信息 到 达 调 度 嚣 。 调 度 器 第 I 部 分 因此 发 送 
ul(B);ri(B) 给 第 I 部 分 。 后 者 查阅 锁 表 ， 发 现 它 可 以 把 B 上 的 更 新 锁 授 予 T!,， 因 为 B 上 只 有 共 
享 锁 。 

当 动 作 w1(8) 到 达 调 度 器 时 ， 第 I 部 分 发 送 x1(B):w1(8) 。 但 是 ， 第 II 部 分 不 能 同意 x11(8) 请 求 ， 
因为 B 上 有 一 个 好 的 共享 锁 。 来 自 九 的 这 一 动作 以 及 后 续 动 作 被 推迟 ， 第 II 部 分 将 它们 存储 起 来 
等 待 将 来 执行 。 最 后 ，7, 提 交 ， 第 I 部 分 释放 Ts 持 有 的 4 和 B 上 的 锁 。 这 时 发 现 ,T 在 等待 B 上 的 
锁 。 调 度 器 第 [I 部 分 被 告知 这 一 信息 ， 并 且 它 发 现 x11(B) 锁 现在 可 以 获得 了 。 它 将 此 锁 加 入 锁 表 
中 ， 并 继续 最 大 限度 地 执行 存储 的 来 自 Tl 的 动作 。 在 这 个 例子 中 ， 工 完成 。 口 


18.5.2 锁 表 
抽象 地 说 ， 锁 表 是 将 数据 库 元 素 与 有 关 
该 元 素 的 封锁 信息 联系 起 来 的 一 个 关系 ， 如 
图 18-25 所 示 。 举 例 来 说 ， 这 个 表 可 以 用 一 个 
散 列表 来 实现 ， 使 用 数据 库 元 素 (地 址 ) 作 
为 散 列 码 。 任 何 未 被 封锁 的 元 素 在 表 中 不 出 
更， 因此 表 的 大 小 只 与 被 封锁 元 素 的 数目 成 关于 A 的 
正比 ， 而 不 是 与 整个 数据 库 的 大 小 成 正比 。 全 信息 
图 18-26 是 我 们 在 锁 表 项 中 所 能 找到 信息 
种 类 的 例子 。 这 个 示例 结构 假设 调度 器 使 用 图 18-25 锁 表 是 从 数据 库 元 素 到 其 封锁 信息 的 映射 
18.4.4 节 的 共享 一 排他 一 更 新 锁 模 式 。 图 中 所 示 一 个 典型 数据 库 元 素 A 的 表 项 是 由 以 下 成 分 构 
成 的 一 个 元 组 : 
1. 组 模式 是 对 一 个 事务 申请 4 上 的 一 个 新 锁 时 所 面临 的 最 严格 的 条 件 的 概括 。 我 们 并 不 是 
将 封锁 请 求 和 同一 元 素 上 其 他 事务 持 有 的 锁 一 个 个 比较 ， 而 可 以 通过 只 比较 请 求 与 组 模式 来 简 
化 授予 /拒绝 决定 8 。 在 共享 一 排他 一 更 新 ( SXU ) 的 封锁 方式 中 ， 规 则 很 简单 ; 组 模式 
(a) 5S 表示 被 持 有 的 只 有 共享 锁 。 
(>) 5 表示 有 一 个 更 新 锁 ， 而 且 可 能 有 一 个 或 多 个 共享 锁 。 
(c) X 表 示 有 一 个 排他 锁 ， 并 且 没 有 其 他 的 锁 。 
对 于 其 他 的 封锁 方式 ， 总 是 存在 使 用 组 模式 的 一 个 适当 的 概括 系统 ， 我 们 把 例子 留 作 习 
题 。 
2. 等 待 位 说 明 至 少 有 一 个 事务 等 待 4 上 的 锁 。 
”3. 一 个 列表 描述 所 有 或 者 在 4 上 当前 持 有 锁 、 或 者 在 等 待 4 上 的 锁 的 那些 事务 。 每 个 列表 
项 中 的 有 用 信息 可 能 包括 : 
(a) 持 有 锁 或 等 待 锁 的 事务 名 。 
(b) 该 锁 的 模式 。 


DB 元 素 A 


O 但 是 ， 封 锁 管理 器 必须 处 理发 出 请 求 的 事务 在 同一 元 素 上 已 经 持 有 其 他 方式 的 锁 的 可 能 性 。 例 如 ， 在 所 讨论 
的 SKU 封 锁 系统 中 ， 如 果 发 出 请 求 的 事务 在 同一 元 素 上 有 z 锁 ， 封 锁 管理 器 或 许可 以 同意 其 X 锁 请 求 。 在 不 支 
持 一 个 事务 在 同一 元 素 上 有 多 个 锁 的 系统 中 ， 组 模式 总 能 为 封锁 管理 器 提供 所 需 信息 。 
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(c) 事务 是 持 有 锁 还 是 等 待 锁 。 

在 图 18-26 中 ， 对 每 一 项 我 们 还 给 出 了 两 个 链接 。 一 个 将 列表 项 自身 链接 起 来 ， 另 一 个 
将 一 个 具体 事务 的 所 有 项 链接 起 来 ( 图 中 的 Tnext )。 后 一 个 链接 在 事务 提交 或 中 止 时 会 用 到 ， 
以 使 得 我 们 能 比较 容易 地 找到 需要 释放 的 所 有 锁 。 





图 18-26 锁 表 项 的 结构 


封锁 请 求 的 处 理 

假设 事务 7 请 求 4 上 的 锁 。 如 果 没 有 4 的 锁 表 项 ， 那 么 肯定 在 4 上 无 锁 ， 于 是 相应 的 表 项 被 
创建 并 且 请 求 被 同意 。 如 果 存在 4 的 锁 表 项 ， 就 用 它 来 指导 我 们 做 出 有 关 封 锁 请 求 的 决定 。 我 
们 找到 组 模式 ， 这 在 图 18-26 中 是 UV， 即 “ 更 新 ”。 一 旦 元 素 上 有 更 新 锁 ， 其 他 锁 就 不 能 被 授予 
(除了 7 自己 持 有 0 锁 和 其 他 与 7 的 请 求 相 容 的 锁 这 一 情况 )。 因 此 ，7 的 这 一 请 求 被 拒绝 ， 而 在 
列表 中 将 加 入 表示 7 申请 锁 ( 其 模式 由 7 的 申请 而 定 ) 的 一 项 ， 并 且 wait9 -wesn。 

如 果 组 模式 是 x ( 排他 的 )， 则 同样 的 事情 将 发 生 ; 但 如 果 组 模式 是 5( 共享 的 )， 则 另 一 个 
共享 锁 或 更 新 锁 可 以 被 授予。 在 这 种 情况 下 ，7 在 列表 中 的 项 将 有 Wait?-'mo'， 并 且 如 果 新 镇 
是 更 新 锁 ， 则 组 模式 被 改 为 否则 组 模式 保持 5。 不 管 锁 是 否 被 授予， 新 的 列表 项 通过 
mnext 和 Next 字 段 正确 地 链接 起 来 。 请 注意 ， 不 管 锁 是 否 被 授予 ， 调 度 器 可 以 从 锁 表 得 到 所 
需 信息 而 不 必 检查 锁 的 列表 。 
解锁 的 处 理 

现在 假设 事务 7 解锁 4。 列 表 中 7 关于 4 的 项 被 删除 。 如 果 7 持 有 的 锁 与 组 模式 不 同 〈 例如 ， 
7 竺 有 s 锁 ， 而 组 模式 为 U )， 则 不 需要 改变 组 模式 。 另 一 方面 ， 如 果 7 的 锁 处 于 组 模式 ， 我 们 可 
能 不 得 不 检查 整个 列表 以 找 出 新 的 组 模式 。 在 图 18-26 的 例子 中 ， 我 们 知道 在 一 个 元 素 上 只 能 
有 一 个 更 新 锁 ， 因 此 当 该 锁 被 释放 时 ， 新 的 组 模式 只 能 是 $ ( 如 果 还 存在 共享 锁 的 话 )， 或 什么 
也 没有 《如 果 当 前 没有 其 他 锁 被 持 有 ) 。。 如 果 组 模式 是 xX， 我 们 知道 不 会 有 其 他 锁 ; 而 如 果 
组 模式 是 5， 则 需要 判定 是 否 有 其 他 共享 锁 。 

如 果 waiting 的 值 为 yes'， 我 们 需要 授予 申请 锁 列 表 中 的 一 个 或 多 个 锁 。 有 几 种 不 同 的 
方式 ， 它 们 各 有 其 优点 : 


o ”我们 永远 也 不 会 看 到 组 模式 是 “什么 也 没有 "， 因为 如 果 元 素 上 既 没 有 锁 也 没有 锁 请 求 ， 那 么 锁 表 中 就 没有 关 
于 该 元 素 的 项 。 





i ac 


1 先 来 先 服 务 : 同意 等 待 时 间 最 长 的 封锁 请 求 。 这 种 策略 保证 不 会 馈 死 ， 即 一 个 事务 永远 
等 待 一 个 锁 的 情况 。 

2. 共享 锁 优先 : 首先 授予 所 有 等 待 的 共享 锁 。 接 着 ， 如 果 有 等 待 的 更 新 锁 ， 则 授予 一 个 更 
新 锁 。 只 在 没有 其 他 锁 等 待 时 才 授 予 排他 锁 。 这 一 策略 允许 等 待 U 或 X 锁 的 事务 饿 死 。 

3. HARA: 如 果 有 一 个 持 有 0 锁 的 事务 等 待 将 其 升级 到 X 锁 ， 则 首先 授予 该 锁 。 否 则 ， 
采用 已 经 提 到 的 其 他 策略 中 的 一 个 。 
18.5.3 习题 

习题 18.5.1 锁 表 中 合适 的 组 模式 是 哪些 ， 如 果 使 用 的 锁 模 式 为 : 

a) 共享 锁 与 排他 锁 。 

= b) 共享 锁 、 排 他 锁 和 增 量 锁 。 

no ec) 习题 18.4.6 中 的 封锁 模式 。 

习题 18.5.2 对 习题 18.2.4 中 的 各 个 调度 ， 说 明 本 节 中 描述 的 封锁 调度 器 将 要 执行 的 步骤 。 


18.6 数据 库 元 素 层次 的 管理 


现在 回 到 我 们 从 18.4 节 开始 的 对 于 不 同 封锁 方式 的 探索 。 特 别 地 ， 我 们 将 主要 关注 在 我 们 
的 数据 中 存在 树 结构 时 出 现 的 两 个 问题 。 

1. 我 们 遇 到 的 第 一 类 树 结构 是 可 封锁 元 素 的 层次 结构 。 在 这 一 节 中 ， 我 们 讨论 如 何 才能 既 
允许 大 的 元 素 如 关系 上 的 锁 ， 又 允许 包含 于 其 中 的 较 小 元 素 ( 如 容纳 关系 中 几 个 元 组 的 块 ， 或 
单个 元 组 ) 上 的 锁 。 

2. 并 发 控制 系统 中 另 一 类 重要 的 层次 是 本 身 就 组 织 为 一 棵 树 的 数据 。 一 个 重要 的 例子 是 B 
树 索引 。 我 们 可 以 将 B 树 的 结 点 看 做 数据 库 元 素 ， 但 如 果 这 样 做 ， 那 么 就 像 我 们 将 在 18.7 节 中 
看 到 的 那样 ， 到 目前 为 止 所 研究 的 封锁 方式 的 性 能 就 会 很 低 ， 而 我 们 需要 使 用 一 种 新 的 方法 。 
18.6.1 多 粒度 的 锁 

回忆 一 下 ， 我 们 故意 不 给 出 “数据 库 元 素 ” 这 一 术语 的 定义 ， 因 为 不 同 的 系统 用 不 同 大 小 
的 数据 库 元 素 封 锁 ， 例 如 元 组 、 页 或 块 ， 以 及 关系 。 有 的 应 用 受益 于 小 的 数据 库 元 素 如 元 组 ， 
而 另 一 些 使 用 大 的 元 素 时 最 好 。 

例 18.20 ”考虑 银行 的 数据 库 。 如 果 我 们 将 关系 作为 数据 库 元 素 ， 并 因而 对 整个 关系 ( 如 
给 出 账户 余额 的 关系 ) 只 有 一 个 锁 ， 那么 系统 只 能 允许 极 少 的 并 发 。 由 于 大 多 数 事务 都 将 或 正 
或 负 地 改变 账户 余额 ， 因 而 大 多 数 事务 都 需要 帐户 关系 上 的 一 个 排他 锁 。 因 此 ， 同 一 时 间 只 有 
一 个 存款 或 取款 能 进行 ， 不 管 我 们 有 多 少 处 理 器 可 以 用 来 执行 这 些 事务 。 一 种 比较 好 的 方法 是 
给 单独 的 页 或 数据 块 上 锁 。 这 样 ， 对 应 元 组 位 于 两 个 不 同 块 上 的 账户 就 可 以 同时 被 更 新 ， 同 时 
提供 了 系统 中 几乎 所 有 可 能 的 并 发 。 极 端的 情况 是 为 每 个 元 组 提供 一 个 锁 ， 那 么 不 管 什 么 样 的 
账户 集合 都 可 以 同时 更 新 ， 但 这 样 细 的 锁 粒 度 或 许 不 值 它 需 要 付出 的 特别 大 的 代价 。 

作为 对 照 ， 考 虑 文档 的 一 个 数据 库 。 这 些 文档 可 能 不 时 地 被 编辑 ， 但 大 多 数 事务 将 检索 整 
个 文档 。 明 吞 的 选择 是 将 整个 文档 作为 数据 库 元 素 。 由 于 大 多 数 事 务 是 只 读 的 即 它们 不 会 执 
行 任何 写 动作 )， 封 锁 只 是 为 了 避免 读 一 个 正在 编辑 中 的 文档 。 如 果 我 们 使 用 粒度 更 小 的 锁 ， 
例如 图 、 语 句 或 单词 ， 基 本 上 不 会 带 来 好 处 而 只 会 增加 开销 。 较 小 粒度 的 锁 可 以 支持 的 惟一 活 
动 是 ， 当 同一 文档 的 其 他 部 分 正在 被 修改 时 可 以 读 文 档 的 某 些 部 分 。 口 


一 些 应 用 既 能 使 用 大 粒度 锁 又 能 使 用 小 粒度 锁 。 例 如 ， 例 18.20 讨 论 的 银行 数据 库 显 然 需 
概 块 级 或 元 组 级 封锁 ， 但 也 可 能 在 某 些 时 候 为 了 审计 账户 例如， 检查 账户 的 总 和 是 否 正 确 ) 
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而 需要 整个 账户 关系 上 的 锁 。 但 是 ， 为 了 计算 账户 关系 上 的 某 个 聚集 而 获得 该 关系 上 的 一 个 共 
享 锁 ， 而 同时 在 单个 的 账户 元 组 上 有 排他 锁 ， 这 很 可 能 导致 非 可 品行 化 行为 ， 因 为 聚集 查询 在 
读 假设 被 冻 住 的 关系 拷贝 时 ， 此 关系 事实 上 正在 改变 。 
18.6.2 7M 

解决 管理 不 同 粒度 锁 这 一 问题 的 方法 牵涉 到 
一 种 称 为 “警示 ”的 新 的 锁 。 这 样 的 锁 在 数据 库 
元 素 形成 嵌 套 或 层次 结构 时 很 有 用 ， 如 图 18-27 所 
示 。 其 中 ， 我 们 可 以 看 到 三 个 级 别 的 数据 库 元 素 : 

1. 关系 是 最 大 的 可 封锁 元 素 。 

2. 每 个 关系 由 一 个 或 多 个 块 或 页 组 成 ， 每 个 
块 或 页 上 存储 了 关系 的 元 组 。 

3. 每 个 块 包含 一 个 或 多 个 元 组 。 

在 数据 库 元 素 的 层次 上 管理 锁 的 规则 由 警示 
协议 构成 ， 它 既 包 括 “ 普 通 ” 锁 又 包括 “警示 ” 
锁 。 我 们 将 描述 普通 锁 是 S 和 X ( 共享 和 排他 ) 时 的 封锁 方式 。 警 示 锁 将 通过 在 普通 锁 前 加 前 级 
7 ( 意 为 “打算 ”) 表示 ; 例如 4S 表示 获得 子 元 素 上 的 一 个 共享 锁 的 意向 。 警 示 协 议 的 规则 是 ， 

1. 要 在 任何 元 素 上 加 5 或 X 锁 ， 我 们 必须 从 层次 结构 的 根 开始 。 

2. 如 果 处 于 我 们 将 要 封锁 的 元 素 的 位 置 ， 则 不 需要 进一步 查找 。 我 们 请 求 该 元 素 上 的 8 或 X 
锁 。 

3. 如 果 我 们 希望 封锁 的 元 素 在 层次 结构 中 更 靠 下 ， 那 么 在 这 一 结 点 上 加 一 个 警示 锁 ; 也 就 
是 说 ， 如 果 我 们 想 要 获得 其 子 元 素 上 的 共享 锁 ， 则 请 求 该 结 点 上 的 1S 锁 ， 如 果 我 们 想 要 获得 其 
子 元 素 上 的 排他 锁 ， 则 请 求 该 结 点 上 的 区 锁 。 当 前 结 点 上 的 锁 被 授予 后 ， 我 们 继续 向 适当 的 子 
结 点 ( 其 子 树 包 含 我 们 希望 上 锁 的 结 点 的 那 一 个 ) 行进 。 接 下 来 适当 地 重复 步骤 2 ) 和 步骤 3 )， 
直到 到 达 所 需 结 点 。 

为 了 决定 这 些 锁 中 的 一 个 是 否 能 授予 ,我 们 使 用 图 18-28 的 相 容 性 和 矩阵。 为 了 明白 为 什么 
这 个 矩阵 是 有 意义 的 ， 我 们 首先 考虑 15 列 。 当 请 求 结 点 N 上 
的 1S 锁 时 ， 我 们 打算 读 N 的 一 个 后 竣 。 这 个 意向 惟一 会 产生 
问题 的 是 另外 的 某 个 事务 已 经 声明 了 用 N 表 示 的 整个 数据 库 
元 素 写 人 新 拷贝 的 权利 时 ; 因此 在 关于 X 的 行 上 看 到 “ 否 ”。 
请 注意 ， 如 果 另 外 的 某 个 事务 只 打算 写 一 个 子 元 素 ， 这 通过 
N 上 的 必 锁 表明 ， 那 么 我 们 能 够 承受 在 N 授 予 1$ 锁 。 如 果 写 意 
向 与 读 意向 恰好 涉及 共同 的 元 素 ， 则 允许 在 较 低 的 层次 上 解 ESTS RFB Abeta 
Heth. 向 锁 的 相 容 性 矩阵 

现在 考虑 及 列 。 如 果 我 们 打算 写 结 点 N 的 一 个 子 元 素 ， 那 么 必须 防止 对 由 N 表 示 的 整个 元 
素 的 读 和 写 。 因 此 ， 我 们 在 关于 S 和 X 的 项 中 看 到 “ 否 ”。 但 是 ， 按 照 我 们 对 1S 列 的 讨论 ， 读 或 
写 一 个 子 元 素 的 另 一 个 事务 潜在 的 冲突 可 以 在 该 子 元 素 的 层次 上 解决 ， 所 以 IX 与 NV 上 的 另 一 个 
1 或 N 上 的 5 不 冲突 。 

接 下 来 ,考虑 5 列 。 读 对 应 于 结 点 N 的 元 素 不 会 与 N 上 的 另 一 个 读 锁 或 N 的 某 个 子 元 素 上 的 
CARER, ANA MISHA. Alt, 我们 在 关于 Ss 和 1S 的 行 上 都 看 到 “是 ”。 然 而 ，X 或 
1X 都 表示 另外 的 某 个 事务 至 少 会 写 由 N 表 示 的 数据 库 元 素 的 部 分 。 因 此 ， 我 们 不 能 授予 读 整 个 





图 18-27 层次 组 织 的 数据 库 元 素 
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A 的 权利 ， 这 解释 了 5 列 上 为 “ 否 ” 的 项 。 

最 后 ，X 列 上 只 有 “ 否 ”。 如 果 另 外 的 某 个 事务 已 经 有 权利 读 写 N 或 获得 一 个 子 元 素 上 的 读 
写 权限 ， 我 们 就 不 能 允许 写 整个 结 点 N。 

例 18.21 考虑 关系 


Movie (title, year, length, studioName) 









意向 锁 的 组 模式 

图 18-28 中 的 相 容 性 给 阵 展 示 了 我 们 以 前 未 见 过 的 关于 封锁 模式 能 力 的 一 种 情况 。 在 
前 面 的 封锁 模式 中 ， 只 要 有 可 能 同时 将 数据 库 元 素 以 M 或 N 模 式 封 锁 ， 其 中 一 种 模式 必然 
在 这 样 的 意义 上 优 于 另 一 种 模式 : 只 要 后 者 在 行 或 列 上 有 “和 否 "， 那 么 前 者 分 别 在 对 应 行 
或 列 的 位 置 上 是 “ 否 ”。 例 如 ， 在 图 18-19 中 ， 我 们 看 到 U 优 于 S， 而 义 优 于 U 和 S$。 知道 元 
素 上 总 存在 优势 锁 的 好 处 是 ， 我 们 可 以 用 一 个 “组 模式 ”概括 多 个 锁 的 效果 ， 正 如 18.5.2 
节 讨 论 的 那样 。 

正如 我 们 从 图 18-28 中 看 到 的 那样 ，S 和 IX 模式 相互 不 优 于 对 方 。 此 外 ， 一 个 元 素 可 能 
同时 以 8 模式 和 有 X 模 式 封 镇 ， 只 要 这 些 锁 是 同一 个 事务 申请 的 〔 回忆 一 下 ， 相 容 性 矩阵 中 
的 “和 否 ” 项 只 适用 于 其 他 某 个 事务 持 有 的 锁 )。 事 务 可 能 申请 这 两 个 锁 ， 如 果 它 希望 读 整 
个 元 素 ， 然 后 写 其 子 元 素 的 一 个 较 小 的 子 集 。 如 果 事 务 在 元 素 上 既 有 8 有 锁 又 有 7X 锁 ， 那 
么 它 对 其 他 事务 的 限制 程度 是 其 他 的 任 一 个 锁 都 做 不 到 的 。 也 就 是 说 ， 我 们 可 以 设想 另 
一 个 封锁 模式 SIX， 它 的 行 和 列 除 了 关于 18 的 项 以 外 全 是 “和 否 "。 如 果 一 个 事务 有 8 和 这 模 
式 的 锁 而 没有 X 模 式 的 锁 时 ， 封 锁 模式 SIX 将 充当 组 模式 。 

顺便 说 说 ， 我 们 可 以 设想 在 图 18-22 关于 增 量 锁 的 纸 阵 中 将 会 发 生 同 样 的 情况 。 也 就 
是 说 ， 一 个 事务 可 以 既 有 8 模式 的 锁 又 有 7 模式 的 锁 。 但 是 ， 这 种 情况 等 价 于 持 有 X 模 式 的 
锁 ， 于 是 在 这 种 情况 下 我 们 可 以 使 用 作为 组 模式 。 


假设 有 整个 关系 上 的 锁 和 单个 元 组 上 的 锁 。 接 着 ， 由 查询 


SELECT * 

FROM Movie 

WHERE title = ’King Kong’; 
构成 的 事务 7 从 获得 整个 关系 上 的 1S 锁 开始 。 然 后 该 事务 转 到 单个 的 元 组 (有 两 部 名 字 为 King 
Kong 的 影片 )， 并 在 它们 中 的 每 一 个 上 获得 $ 锁 。 

现在 ,假设 当 我 们 在 执行 第 一 个 查询 时 ， 事务 开始 ， 它 改变 一 个 元 组 中 的 年 这 一 成 分 : 


UPDATE Movie 
SET year = 1939 
WHERE title = ’Gone With the Wind’; 


him BRAEN—TXR, ANEHRHE PH —TICABSARMA. TELA EMIS 
容 的 ， 因 此 锁 被 授予 。 当 7? 来 到 关于 Cone With the Wind 的 元 组 ， 发 现 那里 没有 锁 ， 于 是 得 到 其 


X 锁 并 重 写 元 组 。 如 果 工 试图 在 King Kong 影 片 之 一 的 元 组 中 写 人 新 值 ， 它 将 必须 等 到 T, 释 放 其 
5$ 锁 ， 因 为 S 和 X 是 不 相 容 的 。 锁 的 集合 如 图 18-29 所 示 。 口 


18.6.3 幻像 与 插入 的 正确 处 理 
当 事 务 创 建 可 封锁 元 素 的 一 个 新 的 子 元 素 时 ， 有 时 候 可 能 出 错 。 问 题 在 于 我 们 只 能 封锁 已 
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经 存在 的 项 ; 封锁 并 不 存在 但 以 后 可 能 被 插入 的 数据 库 元 素 没 有 简单 的 方法 。 下 面 的 例子 说 明 
了 这 一 点 。 


Ti 一 Is 
Movies 
ane 
King Kong King Kong Gone With the Wind 
T-S 五 -~S T,-X 


图 18-29 访问 Movie 元 组 的 两 个 事务 被 授予 的 锁 
例 18.22 假设 我 们 有 和 例 18.21 中 一 样 的 关系 Movie， 而 首先 执行 的 事务 是 T;， 它 是 查询 


SELECT SUM(length) 

FROM Movie 

WHERE studioName = Disney’; 

7 需要 读 Disney 影 片 的 所 有 元 组 ， 所 以 它 可 能 首先 在 该 关系 上 获得 18 锁 ， 并 在 Disney 影 片 的 每 
个 元 组 上 获得 $ 锁 。 。 

现在 ,事务 T 出 现 并 插入 一 个 新 的 Disney 影 片 。 看 起 来 似乎 不 需要 锁 ， 但 它 已 经 使 的 
结果 不 正确 。 这 一 事实 本 身 并 不 是 并 发 的 问题 ， 因 为 串 行 顺序 (Ts, Te) 与 真正 发 生 的 等 价 。 
但 是 ， 也 可 能 有 其 他 某 个 六 和 7 都 写 但 74 先 写 的 元 素 X， 因 此 在 更 复杂 的 事务 中 可 能 有 不 可 串 
行 化 的 行为 。 

为 了 更 精确 地 说 明 ， 假 设 Di 和 D: 是 原来 已 经 存在 的 Disney 影 片 ， 而 D; 是 7, 插 入 的 新 Disney 
影片 。 设 IL 是 7 计算 出 的 Disney 影 片 的 长 度 之 和 ， 并 假设 数据 库 上 的 一 致 性 约束 是 L 应 该 等 于 
最 后 一 次 计算 L 时 存在 的 所 有 Disney 影 片 的 长 度 之 和 。 那 么 下 面 是 在 警示 协议 下 合法 的 一 个 事 
件 序列 : 


73(D1); r3(D2); wa (D3); wa(X); w3(L); w3(X); 


这 里 ， 我 们 用 w4(D3) 表 示 事 务 74 创 建 D:。 上 面 的 调度 不 是 可 串 行 化 的 。 特 别 地 ，Z 的 值 不 是 D)、 
D2 和 D3 的 长 度 之 和 ， 而 它们 是 当前 的 Disney 影 片 。 此 外 ，X 具 有 由 T 写 人 而 非 T; 写 人 的 值 这 一 
事务 排除 了 在 假定 的 等 价 串 行 调度 中 7 位 于 7 前 的 可 能 性 。 口 


例 18.22 中 的 问题 是 ， 新 Disney 影 片 有 一 个 幻像 元 组 ， 该 元 组 应 该 被 上 锁 却 没有 上 锁 ， 因 为 
在 获得 锁 时 它 还 不 存在 。 但 是 ， 有 一 种 避免 幻像 发 生 的 简单 方法 。 我 们 必须 将 元 组 的 插入 或 册 
除 看 做 整个 关系 上 的 写 操 作 。 因 此 ， 人 饮 18.22 中 的 事务 必须 获得 关系 Movie 上 的 X 锁 。 由 于 TT， 
已 经 以 5 模式 封锁 了 这 个 关系 ， 而 该 模式 与 模式 X 不 相 容 ，T 必 须 等 到 卫 完 成 。 
18.6.4 习题 
习题 18.6.1 为 了 有 多 样 性 我们 考虑 一 个 面向 对 象 的 数据 库 。 类 C 的 对 象 存在 两 个 块 B， 
HBE. RB ESHROMO:, 而 块 B, 包 含 对 象 0;、Os 和 0O;。 类 外 延 、 块 和 对 象 构 成 可 封 
锁 数据 库 元 素 的 一 个 层次 结构 。 对 下 面 的 请 求 序列 ， 说 明 封 锁 请 求 和 基于 警示 协议 的 调度 
器 的 响应 构成 的 序列 。 可 以 假设 所 有 请 求 正好 在 它们 被 需要 前 发 生 ， 而 所 有 解锁 发 生 在 事 
务 末尾 。 


O 但 如 果 有 很 多 Disney 影 片 ， 则 只 在 整个 关系 上 获得 一 个 5 锁 可 能 效率 更 高 。 





* a) rı(01); wa(O2); r2(03); w04); 
b) 71(Os); w2(Os); r2(Os); w104); 
c) (Oi); rı(03); r2(01); W2(O4); wa(Os); 
d) r1(O1); r2(O2); r3(01); wi (03); wa(O4); w3 (Os); wi (02); 


习题 18.6.2 ”修改 例 18.22 中 的 动作 序列 ， 使 wa(D3) 成 为 1 对 整个 Movie 关 系 所 做 的 一 个 写 
动作 。 接 下 来 给 出 基于 警示 协议 的 调度 器 针对 此 请 求 序列 的 动作 。 
H 习题 18.6.3 说 明 如 何在 基于 警示 协议 的 调度 器 中 加 入 增 量 锁 。 


18.7 树 协 议 


本 节 中 我 们 考虑 涉及 元 素 树 的 另 一 个 问题 。18.6 节 中 处 理由 数据 库 元 素 的 嵌 套 结构 形成 的 
树 ， 其 中 子 结 点 是 父 结 点 的 子 部 分 。 现 在 ， 我 们 处 理由 元 素 自 身 的 链接 方式 形成 的 树 结构 。 数 
据 库 元 素 是 不 相交 的 数据 片段 ， 但 到 达 结 点 的 惟一 方式 是 通过 其 父 结 点 ; B 树 是 这 类 数据 的 重 
要 例子 。 知 道 我 们 必须 沿 着 通 向 元 素 的 特定 路 径 ， 这 给 了 我 们 以 不 同 于 到 目前 为 止 所 看 到 的 两 
阶段 封锁 方式 来 管理 锁 的 重要 自由 。 

18.7.1 基于 树 的 封锁 的 动机 

让 我 们 考虑 B 树 索引 ， 这 一 系统 中 将 单个 结 点 (HR) 看 做 可 封锁 的 数据 库 元 素 。 结 点 是 
正确 的 封锁 粒度 ， 因 为 将 更 小 的 片段 看 做 元 素 不 会 带 来 好 处 ， 而 将 整个 B 树 看 做 一 个 数据 库 元 
素 阻止 了 在 使 用 锁 时 通过 构成 18.7 节 主题 的 机 制 所 能 获得 的 那 一 类 并 发 。 

如 果 我 们 使 用 标准 的 诸如 共享 、 排 他 和 更 新 锁 这 样 的 封锁 模式 集合 ,并 且 使 用 两 阶段 封锁 ， 
那么 B 树 的 并 发 使 用 几乎 是 不 可 能 的 。 原 因 在 于 ， 每 个 使 用 索引 的 事务 必须 从 封锁 B 树 的 根 结 
点 开始 。 如 果 事 务 是 2PL 的 ,那么 在 它 获得 B 树 结 点 和 其 他 数据 库 元 素 上 所 有 需要 的 锁 以 前 不 
能 解锁 根 结 点 ” 。 此 外 ， 由 于 原则 上 任何 插入 或 删除 的 事务 可 能 最 终 重 写 B 树 的 根 ， 事 务 至 少 
需要 根 结 点 上 的 一 个 更 新 锁 ， 或 更 新 锁 不 能 获得 时 的 一 个 排他 锁 。 因 此 ， 任 何 时 刻 都 只 有 一 个 
非 只 读 的 事务 能 访问 B 树 。 

但 是 ， 在 大 多 数 情况 下 ， 我 们 几乎 可 以 立即 推断 B 树 结 点 不 会 被 重 写 ， 即 使 事务 插入 或 删 
除 元 组 。 例 如 ， 如 果 事 务 插入 一 个 元 组 ,但 我 们 所 访问 的 根 的 子 结 点 并 不 是 全 满 的 ， 那 么 我 们 
知道 插入 不 会 向 上 传播 到 根 。 类 似 地 ， 如 果 事 务 删除 单独 的 一 个 元 组 ， 而 我 们 所 访问 的 根 的 子 
结 点 中 码 和 指针 的 数目 超过 最 小 数目 ， 那 么 可 以 肯定 根 不 会 改变 。 

因此 ， 一 旦 事务 移 到 根 的 子 结 点 并 观察 到 ( 非常 常见 的 ) 不 再 重 写 根 的 情况 ， 那 么 我 们 非 
常 乐 意 释 放 根 上 的 锁 。 这 同样 适用 于 B 树 中 任何 内 部 结 点 上 的 锁 ， 尽 管 大 多 数 并 发 的 B 树 访问 机 
会 来 自 于 提早 释放 根 上 的 锁 。 不 幸 的 是 ， 提 早 释放 根 上 的 锁 会 违背 2PL， 因 此 我 们 不 能 确定 访 
问 B 树 的 几 个 事务 的 调度 是 可 串 行 化 的 。 解 决 方法 是 为 访问 像 B 树 这 样 的 树 结构 数据 的 事务 采用 
专门 的 协议 。 这 一 协议 违背 2PL， 但 使 用 访问 元 素 必须 沿 树 向 下 这 样 一 个 事实 来 保证 可 串 行 性 。 
18.7.2 访问 树 结 构 数据 的 规则 

以 下 对 锁 的 限制 构成 了 树 协议 。 我 们 假设 只 有 一 种 锁 ， 由 形式 为 /; (六 的 封锁 请 求 表示 ， 但 
这 一 思路 可 以 推广 到 其 他 任何 封锁 模式 集合 。 我 们 假设 事务 是 一 致 的 ， 且 调度 必须 是 合法 的 
《 即 ， 调 度 器 通过 只 在 申请 的 锁 与 结 点 上 已 有 的 锁 不 冲突 时 才 授 予 锁 来 实施 约束 )， 但 事务 上 没 


O 另外 ， 事 务 将 持 有 所 有 锁 直 至 它 准 备 提交 ， 这 有 很 好 的 理由 ; 见 19.1 节 。 
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有 两 阶段 提交 的 要 求 。 O 
1. 事务 的 第 一 个 锁 可 以 在 树 的 任何 结 点 上 “”。 

2. 只 有 事务 当前 在 父 结 点 上 持 有 锁 时 才能 获得 后 续 的 

a. Q © 
3. 结 点 可 以 在 任何 时 候 解 锁 。 O) (E) 
4. 事务 不 能 对 一 个 它 已 经 解锁 的 结 点 重新 上 锁 ， 即 使 

它 在 该 结 点 的 父 结 点 上 仍 持 有 锁 。 Œ) (C6) 
例 18.23 图 18-30 给 出 了 结 点 的 一 个 层次 结构 ， 而 图 

18-31 说 明 三 个 事务 在 这 一 数据 上 的 动作 。T 从 根 4 开始 ， 图 18-30 可 封锁 元 素 的 树 

并 继续 向 下 进行 到 、C 和 D。 荆 从 B 开 始 ， 并 试图 移 到 E， 但 其 移动 一 开始 就 由 于 T; 在 E 上 的 锁 

而 被 拒绝 。 事 务 73 从 天 开始 ， 并 移 到 F 和 G。 请 注意 ， 刀 不 是 2PL 事 务 ， 因 为 4 上 的 锁 在 D 上 的 锁 

获得 以 前 释放 。 类 似 地 ，73 不 是 2PL 事 务 ， 尽 管 刀 恰 好 是 2PL 的 。 口 


18.7.3 树 协议 发 挥 作 用 的 原因 

树 协议 在 调度 中 涉及 的 事务 上 强制 实现 一 个 串 行 顺序 。 我 们 可 以 定义 先后 次 序 如 下 。 如 果 
在 调度 S$ 中 ， 事务 T; 和 7 封锁 一 个 共同 的 结 点 ， 而 T 先 封锁 该 结 点 ， 我 们 就 说 Ti <, 工 。 

例 18.24 在 图 18-31 的 调度 s 中 ,我们 发 现 T! 和 7T 都 封锁 3， 而 TT 先 封 锁 。 因 此 Ti < To 


Tı T 
h (A); 71 (A); 

lı (B); rı (B); 

h(C); rı (C); 

wi(A); ui(A); 

h({D); r1(D); 

wi(B); uw(B); 

(2(B); r2(B); 


13(E); ra(E); 


wi(D); wu1(D); 
wi(C); ui(O); 
h(E) 被 拒绝 
Is(F); r3(F); 
w3(F); ug(F); 
I3(G); r3(G) 
w3(E); u3(E); 
1n(E); re(E); 
w3(G); us(G) 
we(B); u2(B); 
we(E); uz(E); 


图 18-31 三 个 遵循 树 协 议 的 事务 
我 们 还 发 现 72 和 7 都 封锁 已 ， 而 73 先 封锁 。 因 此 
T3<; Tz。 但 是 ， 在 Ti 和 T; 之 间 没 有 先后 次 序 ， 因 为 它 


们 不 封锁 共同 的 结 点 。 所 以 ， 由 这 些 先 后 次 序 关 系 派 
生 的 优先 图 如 图 18-32 所 示 。 口 


如 果 根 据 上 面 定义 的 先后 次 序 关 系 画 出 的 优先 图 
中 没有 环 ， 那 么 我 们 断言 事务 的 任何 拓扑 顺序 都 是 一 。 图 18-32 图 18-31 的 调度 所 派生 的 优先 图 





O 在 18.7.1 节 的 B 树 例子 中 ， 第 一 个 锁 将 总 在 根 上 。 





ARB 


PS BE. Bla, OT), Ts, T) BOTs, T, Tr) 都 是 图 18-31 的 一 个 等 价 串 行 调度 。 原 
因 在 于 这 样 一 个 串 行 调度 中 所 有 结 点 被 触及 的 顺序 与 它们 在 原始 调度 中 一 样 。 

为 了 理解 为 什么 上 面 描 述 的 优先 图 必须 总 是 无 环 的 ， 让 我 们 首先 看 一 看 下 面 的 事实 : 

.如 果 两 个 事务 有 几 个 二 者 都 要 封锁 的 元 素 ， 那 么 这 些 元 素 被 封锁 的 顺序 相同 。 

考虑 两 个 事务 T 和 U， 它 们 封锁 两 个 或 更 多 共同 的 项 。 首 先 ， 注 意 每 个 事务 封锁 一 个 形成 
一 棵 树 的 元 素 集合 ， 并 且 两 棵 树 的 交 自身 也 是 一 棵 树 。 因 此 ，T 和 U 都 封锁 的 元 素 中 有 某 个 最 
高 的 元 素 X。 假 设 T 先 锁 X*， 但 还 有 另外 的 某 个 元 素 Y 是 U 在 7 前 锁 的 。 那 么 在 元 素 的 树 中 有 一 条 
从 X 到 Y 的 路 径 ， 并 且 7 和 U 都 必须 封锁 沿 着 路 径 的 每 个 元 素 ， 因 为 除非 在 结 点 的 父 结 点 上 有 锁 ， 
否则 二 者 都 不 能 封锁 该 结 点 。 

考虑 沿 着 这 条 路 径 上 U 先 封锁 的 第 一 个 元 素 ， 比 如 说 是 Zz， 如 图 18-33 所 示 。 那 么 T 比 U 先 锁 
Z 的 父 结 点 P。 但 是 这 样 当 T 封 锁 Z 时 它 仍 持 有 P 上 的 锁 ， 因 此 U 在 
锁 Z 时 还 没有 锁 P。z 不 可 能 是 U 与 7 共同 封锁 的 第 一 个 元 素 ， 因 x 


为 它们 都 有 锁 祖 先 X ( 也 可 能 是 P， 但 不 会 是 Z)。 因 此 ，U0 锁 Z 必 了 先 锁 
须 等 到 获得 P 上 的 锁 后 ， 这 是 在 7 锁 Z 后 。 我 们 的 结论 是 ， 在 每 
一 个 7 和 7 共同 封锁 的 结 点 上 ，7 都 在 U 前 。 È 

现在 ,我 们 考虑 任意 事务 集合 Ti,T,,…，T,， 它 们 遵循 树 协 z Uži 


WL, 并 且 根 据 调度 S 封 锁 树 中 的 某 些 结 点 。 首 先 ， 封 锁 根 的 那些 

事务 按照 某 个 顺序 来 做 这 件 事 ， 并 且 按 照 我 们 刚刚 发 现 的 规则 
,如果 了 CET; 前 封锁 根 ， 那 么 T ET, 前 封锁 每 一 个 7 与 也 都 
要 封锁 的 结 点 。 也 就 是 7 <s 也， 但 不 是 7 <s Ti。 

我 们 可 以 通过 对 树 的 结 点 数 进行 归纳 来 证 明 ， 对 于 整个 事 y OU Ft 
务 集合 上 的 调度 8， 必 然 有 某 个 与 之 等 价 的 串 行 调度 。 

基础 : 如果 只 有 一 个 结 点 ， 即 根 ， 那 么 正如 我 们 已 经 观察 。 图 18-33 两 个 事务 封 镇 
到 的 那样 ， 事 务 封锁 根 的 顺序 就 可 以 承担 这 样 的 角色 。 元 素 的 一 条 路 径 

归纳 : 如 果树 中 不 止 一 个 结 点 ， 则 对 根 的 每 一 棵 子 树 考虑 在 该 子 树 中 封锁 一 个 或 多 个 结 点 
的 事务 集合 。 注 意 ， 封 锁 根 的 事务 可 能 属于 多 棵 子 树 ， 但 不 封锁 根 的 事务 只 会 属于 一 棵 子 树 。 
例如 ， 在 图 18-31 的 事务 中 ， 只 有 也 封锁 根 ， 而 它 属于 两 棵 子 树 一 以 B 为 根 的 树 和 以 C 为 根 的 
Mw, Ai, LDABREFUBARHKR, 

根据 归纳 假设 ， 封 锁 任 一 子 树 中 的 结 点 的 所 有 事务 有 一 个 串 行 的 顺序 。 我 们 只 需要 将 不 同 
子 树 的 串 行 顺序 混合 起 来 。 由 于 这 些 事务 列表 中 共有 的 事务 只 是 封锁 根 的 那些 事务 ， 而 我 们 已 
经 证 明 这 些 事务 封锁 每 一 个 公共 结 点 的 顺序 都 与 它们 封锁 根 的 顺序 一 样 ， 封 锁 根 的 两 个 事务 不 
可 能 在 两 个 子 列表 中 按 不 同 的 顺序 出 现 。 具 体 地 说 ， 如 果 7T; AT, 出 现在 根 的 某 个 子 结 点 C 的 列 
表 中 ， 那么 它们 封锁 C 的 顺序 与 它们 封锁 根 的 顺序 一 样 ， 故 在 该 列表 中 也 以 该 顺序 出 现 。 因 此 ， 
我 们 可 以 从 封锁 根 的 事务 开始 ， 建 立 所 有 事务 的 一 个 串 行 顺序 。 在 将 这 些 事务 按照 正确 顺序 排 
放 后 ， 我 们 把 不 封锁 根 的 那些 事务 按照 某 种 与 其 子 树 的 串 行 顺序 不 冲突 的 顺序 散布 其 中 。 

例 18.25 ”假设 有 10 个 事务 T1,7,….，Tio， 并 且 在 这 些 事 务 中 Ti、T, 和 以 此 顺序 封锁 根 。 
我 们 还 假设 根 有 两 个 子 结 点 ， 第 一 个 被 九 到 有 封锁， MEZE, T3, Ts, Ts 和 To 封锁 。 假 
设 第 一 棵 子 树 的 串 行 顺序 是 (Ta, Ti, Ts, To, Ts, Ts, Tr) 3 注意 这 一 顺序 中 必须 按 顺 序 包 括 
Ts TAT 还 假设 第 二 棵 子 树 的 串 行 顺序 是 (Ts, Ta, Ts, Tio, Ts )。 封 锁 根 的 事务 T, 和 TT 在 
这 个 序列 中 的 顺序 必然 和 它们 封锁 根 的 顺序 相同 。 
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D-0 
E 18-34 将 子 树 的 串 行 顺序 组 合成 所 有 事务 的 串 行 顺 序 
这 些 事务 上 的 串 行 顺序 受到 的 约束 如 图 18-34 所 示 。 实 线 表示 由 根 的 第 一 个 子 结 点 导致 的 
AR, 而 虚线 表示 第 二 个 子 结 点 中 的 顺序 。 (Ts, Ts, Ti, Ts, Tz, To, Ts, Tio, Ts, T;) 是 该 
图 的 众多 拓扑 顺序 中 的 一 个 。 口 


18.7.4 习题 
习题 18.7.1 ”假设 我 们 在 图 13-23 所 示 的 B 树 上 执行 下 列 动作 。 如 果 我 们 使 用 树 协议 ， 那 么 
什么 时 候 可 以 释放 各 个 被 搜索 结 点 上 的 写 锁 ? 
* a) 揪 人 10。 
b) 插 人 20。 
c) 删除 5。 
d) 删除 23。 
习题 18.7.2 考虑 在 图 18-30 的 树 上 操作 的 如 下 事务 。 


Ti: 71(A); rı(B); r1(E); 


Tz: r2(A); r2(C); r2(B); 
Ts: ra(B); ra(E); r3(F); 


回答 以 下 问题 : 
* a 如 果 T 和 了 遵循 树 协 议 ， 它们 可 以 以 多 少 种 方式 进行 交错 ? 
b) 如 果 7T1 和 遵循 树 协 议 ， 它 们 可 以 以 多 少 种 方式 进行 交错 ? 

l c) 如 果 这 三 个 事务 遵循 树 协议 ， 它 们 可 以 以 多 少 种 方式 进行 交错 ? 
习题 18.7.3 假设 有 八 个 事务 7,,7,…，T。， 其 中 序号 为 奇数 的 事务 TI、 工 、 7s 和 7 按 此 顺序 
封锁 树 的 根 。 根 有 三 个 子 结 点 ， 第 _ 个 被 7 Tas TAITA IE) 顺序 封锁 队 ， 第 二 个 被 五 、 Ts 和 
T: 按 此 顺序 封锁 ， 第 三 个 被 Ts 和 7T 按 此 顺序 封锁 。 这 些 事务 和 以 上 所 述 一 致 的 串 行 顺序 有 
多 少 ? 

习题 18.7.4 ”假设 我 们 使 用 具有 分 别 用 于 读 和 写 的 共享 锁 和 排他 锁 的 树 协 议 。 要 求 获得 一 
个 结 点 上 的 锁 需 要 持 有 其 父 结 点 上 的 锁 的 规则 (2 ) 必须 做 出 修改 ， 以 防止 非 可 串 行 化 行 
为 。 关 于 共享 锁 和 排他 锁 的 正确 的 规则 (2) 是 什么 ? 提示: 父 结 点 上 的 锁 必 须 和 其 子 结 
点 上 的 锁 类 型 相同 吗 ? 


18.8 使 用 时 间 惟 的 并 发 控制 


接 下 来 ,我 们 将 考虑 封锁 以 外 的 、 菜 些 系统 中 用 来 保证 事务 可 品行 性 的 两 种 方法 : 
1. 时 间 航 。 我 们 给 每 个 事务 分 配 一 个 “时 间 戳 " ， 记 录 最 后 读 和 写 每 个 数据 库 元 素 的 事务 
的 时 间 惟 ， 并 比较 这 些 值 以 保证 按照 事务 的 时 间 改 排序 的 串 行 调度 等 价 于 事务 的 实际 调度 。 这 
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种 方法 是 本 节 的 主题 。 

2. 有 效 性 确认 。 当 事务 将 要 提交 时 ， 我 们 检查 事务 的 时 间 稚 和 数据 库 元 素 ， 这 个 过 程 称 为 
事务 的 “有 效 性 确认 ”。 按 照 有 效 性 确认 时 间 对 事务 进行 排序 的 串 行 调度 必须 等 价 于 实际 的 调 
度 。 有 效 性 确认 方法 在 18.9 节 讨论 。 

这 两 种 方法 都 假设 没有 非 可 串 行 化 行为 发 生 ， 并 且 只 在 违例 很 明显 时 做 修复 ， 在 这 个 意义 上 
它们 是 优化 的 。 与 此 相反 ， 所 有 封锁 方法 假设 ， 如 果 不 预防 事务 陷 人 非 可 串 行 化 行为 中 ， 事 情 就 
会 出 错 。 优 化 的 方法 不 同 于 封锁 的 地 方 在 于 ， 当 确实 发 生 问题 时 惟一 的 补救 措施 是 中 止 并 重启 试 
图 参与 非 可 串 行 化 行为 的 事务 。 与 此 相反 ， 封 锁 调度 器 会 推迟 事务 ， 但 不 中 止 它 们 8 。 通 常 ， 当 
很 多 事务 为 只 读 时 优化 的 调度 器 比 封锁 好 ， 因为 这 些 事 务 自己 永远 不 会 导致 非 可 品行 化 行为。 
18.8.1 FHER 

为 了 使 用 时 间 戳 来 作为 并 发 控制 方式 ， 调 度 器 需要 赋 给 每 个 事务 7 一 个 惟一 的 数值 ， 即 其 
时 间 稚 TS(T)。 时 间 蕉 必须 在 事务 首次 通知 调度 器 自己 将 开始 时 按 升 序 发 出 。 产 生 时 间 戳 的 两 
种 方法 是 : 

a) 创建 时 间 截 的 一 种 可 能 的 方法 是 使 用 系统 时 钟 ， 只 要 调度 器 操作 不 会 快 到 在 一 个 时 钟 周 
期 内 给 两 个 事务 赋予 时 间 戳 。 

b) 男 一 种 方法 是 调度 器 维护 一 个 计数 器 。 每 当 一 个 事务 开始 时 ， 计 数 器 加 1， 而 新 的 值 便 
成 为 该 事务 的 时 间 改 。 在 这 种 方法 中 ， 时 间 戳 与“ 时间” 无 关 ， 但 它们 具有 任何 时 间 蕉 产生 系 
统 都 需要 的 重要 性 质 ， 晚 开 始 的 事务 比 早 开始 的 事务 具有 的 时 间 稚 要 高 。 

不 管 使 用 秆 么 时 间 惟 产生 方法 ， 调 度 器 都 必须 维护 当前 活路 事务 及 其 时 间 截 的 一 张 表 。 

为 了 使 用 时 间 戳 来 作为 并 发 控制 方式 ， 我 们 需要 将 每 个 数据 库 元 素 X& 与 两 个 时 间 蕉 以 及 一 
个 附加 的 位 联系 起 来 ; 

1. RTCD ，X 的 读 时 间 ， 它 是 读 X 的 事务 中 最 高 的 时 间 戳 。 

2. WT(COD，X 的 写 时 间 ， 它 是 写 X 的 事务 中 最 高 的 时 间 戳 。 

3. CCD，X 的 提交 位 ， 该 位 为 真 当 且 仅 当 最 近 写 X 的 事务 已 经 提交 。 这 一 位 的 目的 是 为 了 避 
Kit MES TEA ES URS AUER UP LOREAL. THERE “未 提交 数据 ”这 -个 问 

肯定 有 可 能 会 导致 数据 库 状 态 变 得 不 ~-- 致 ， 而 任何 调度 器 都 需要 防止 脏 读 的 机 制 e。 
18.8.2 物理 上 不 可 实现 的 行为 

为 了 理解 基于 时 间 戳 调度 器 的 体系 结构 和 规则 ， 我 们 需要 记 住 调度 器 假设 事务 的 时 间 蕉 顺 
序 也 必须 是 它们 看 起 来 要 执行 的 串 行 顺序 。 因 此 ， 调 度 器 的 任务 除了 分 配 时 间 惟 和 更 新 数据 库 
元 素 的 RT7、W7 和 C 外 ， 还 要 核查 在 读 写 发 生 的 任何 时 候 ， 如 果 每 个 事务 在 对 应 其 时 间 惟 的 那 
一 刻 瞬 时 执行 的 话 ， 事 实 上 发 生 的 事 就 会 发 生 。 如 果 不 是 ， 我 们 说 这 一 行为 是 物理 上 不 可 实现 
的 。 可 能 发 生 的 问题 有 两 类 ， 

1. 过 晚 的 读 : 事务 7 试图 读数 据 库 元 素 X， 但 X 的 写 时 间 表 明 X 现 有 的 值 是 7 理论 上 执行 以 后 
写 人 的 ; BITS(T) < wTCOD。 图 18-35 说 明 这 一 问题 。 水 平 轴 表 示 事件 发 生 的 实际 时 间 。 虚 线 将 
实际 的 事件 与 其 理论 上 发 生 的 时 间 ( 即 执行 事件 的 事务 的 时 间 戳 ) 连 起 来 。 因 此 ， 我 们 看 到 事 
务 U 在 事务 7 后 开始 ,但 在 7 污 X 前 为 X 写 人 一 个 值 。7 应 该 不 能 读 U 写 入 的 值 ， 因 为 理论 上 U 在 7 
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S 这 并 不 是 说 使 用 封锁 调度 器 的 系统 永远 不 会 中 止 事务 ; 例如 ，19.3 节 讨论 中 止 事 务 以 修复 死 锁 。 但 是 ， 封 锁 调 
度 器 从 不 简单 地 把 中 止 事务 当 作 封锁 请 求 不 能 被 同意 时 的 回应 。 
© 尽管 商用 系统 通常 给 用 户 提供 允许 脏 读 的 选择 。 
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后 执行 。 但 是 ，7 别 无 选择 ， 因 为 V 关 于 X 的 值 是 7 现在 所 看 到 的 。 遇 到 这 一 问题 时 ， 解 决 办 法 
是 中 止 7。 

2. 过 晚 的 写 : 事务 7 试图 写 数 据 库 元 素 X， 但 X 的 读 时 间 表 明 另 外 的 某 个 事务 应 该 读 到 7 写 
人 的 值 却 读 到 另外 的 某 个 值 。 也 就 是 wTOO < TS(T) < RTCOD。 图 18-36 说 明了 这 一 问题 。 其 中 我 
们 看 到 ， 事 务 U 在 事务 T 后 开始 ， 但 在 T 有 机 会 写 X 前 读 X。 当 7T 试 图 写 X 时 ;我 们 发 现 RT(X) > 
TS(7)， 意 味 着 X 已 经 被 一 个 理论 上 在 T 后 执行 的 事务 U 所 读 。 我 们 还 发 现 wT(X) < TS(T)， 意 味 
着 没有 其 他 事务 往 X 中 写 人 能 覆盖 7 所 写 值 的 值 , 因此 取消 7 将 其 值 写 人 X 这 一 任务 , 使 U 能 读 它 。 


U 读 X 





7 开始 U 开 始 7 开始 U 开 始 
图 18-35 事务 7 试图 做 过 晚 的 读 图 18-36 事务 7 试图 做 过 晚 的 写 


18.8.3 脏 数 据 的 问题 

提交 位 的 设计 是 为 了 帮助 解决 一 类 问题 。 其 中 一 个 问题 是 “ 脏 读 ”， 如 图 18-37 所 示 。 其 中 ， 
事务 7 读 X， 而 X 是 最 近 被 U 写 人 的 。U 的 时 间 稚 小 于 7 的 时 间 惟 ， 且 在 实际 中 T 的 读 发 生 在 U 的 写 
之 后 ， 因 此 这 一 事件 看 来 在 物理 上 是 可 实现 的 。 但 是 ， 有 可 能 在 7 读 U 写 人 的 X 值 后 ,事务 U 中 
体 ; 也 可 能 是 U 在 自己 的 数据 中 遇 到 了 一 个 错误 的 情况 ， 如 除 0， 或 像 我 们 将 在 18.8.4 节 看 到 的 
那样 ， 调 度 器 由 于 事务 U 试 图 做 物理 上 不 可 实现 的 事 而 将 其 中 止 。 因 此 ， 尽 管 关于 7 读 X 并 没有 
什么 是 物理 上 不 可 实现 的 ,但 最 好 将 7 的 读 推 迟到 U 提 交 或 中 止 后 。 我 们 可 以 断定 U 尚 未 提交 ， 
因为 提交 位 Cc(X) 为 假 。 

另 一 个 潜在 的 问题 如 图 18-38 所 示 。 其 中 ， 时 间 戳 比 7 晚 的 事务 U 先 写 X。 当 7 试图 写 时 ， 正 
确 的 动作 是 什么 也 不 做 。 显 然 不 会 有 另 一 个 事务 V 应 该 读 T 的 X 值 却 读 到 UU 的 值 ， 因 为 如 果 V 试 图 
读 X， 它 将 因为 过 晚 的 读 而 中 止 。 以 后 对 VV 执行 的 读 将 需要 U 的 X 值 或 一 个 更 晚 写 人 的 X 值 ， 而 不 
是 7 的 。 这 一 想法 ， 即 写 操作 在 写 时 间 更 晚 的 写 操作 已 发 生 时 可 以 被 跳 过 ， 称 为 Thomas 写 法 则 。 





7 开始 7 开始 UP IE 7 开始 U 开 始 7 提交 2 中 止 
图 18-37 如 果 7 在 如 图 所 示 时 候 读 % 则 图 18-38 写 操作 由 于 一 个 具有 较 晚 时 间 
可 能 进行 的 是 脏 读 截 的 写 操作 的 而 被 取消 ， 但 书写 器 终止 


但 是 ，Thomas 写 法 则 有 一 个 潜在 的 问题 。 如 果 像 图 18-38 所 示 的 那样 ，U 后 来 中 止 ， 那 么 
它 的 X 应 该 被 删 掉 ， 并 且 前 一 个 值 和 写 时 间 应 该 被 恢复 。 由 于 7 已 提交 ， 看 起 来 似乎 7 所 写 和 的 
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X 值 应 该 是 以 后 读 到 的 值 。 但 是 ， 我 们 已 经 跳 过 7 的 写 ， 而 且 已 经 来 不 及 修复 了 。 

尽管 有 多 种 处 理 上 述 问题 的 方法 ,但 我 们 将 采用 一 个 相对 简单 的 策略 ， 它 基于 下 面 假设 的 
基于 时 间 惟 的 调度 器 所 具有 的 能 力 。 

* 当 事 务 T 写 数据 库 元 素 X 时 ， 写 是 “尝试 性 的 ” 且 在 7 终止 时 可 以 被 撤销 。 提 交 位 C(X) 被 

设 为 假 ， 调 度 器 保存 X 的 旧 值 和 原 有 wT(X) 的 一 个 拷贝 。 
18.8.4 基于 时 间 惟 调度 的 规则 

我 们 现在 可 以 概括 使 用 时 间 惟 的 调度 器 为 了 保证 不 会 发 生物 理 上 不 可 实现 的 事 所 必须 遵守 
的 规则 。 作 为 对 来 自 事 务 7 的 读 写 请 求 的 响应 ， 调 度 器 可 以 有 如 下 选择 ， 

a) 同意 请 求 ， 

b) 中 止 7( 如 果 7 违 背 事 实 ) HERA RH RANT (PILE LEHR) ; 或 

c) 推迟 7 并 在 以 后 决定 是 中 止 7 还 是 同意 请 求 ( 如 果 请 求 是 读 并 且 此 读 可 能 是 脏 的 ， 正 如 
18.8.3 节 那样 )。 

规则 如 下 : 973 

1. 假设 调度 器 收 到 请 求 rz (X)。 

(a) 如 果 TS(T) =WT(X)， 此 读 是 物理 上 可 实现 的 。 
i 如 果 C(X) 为 真 ， 同 意 请 求 。 如 果 TS(T) > RT(X)， 置 RT(X) := TS); 否则 不 改变 

RT(X)o 

i. MRCOAK, HRTHAC(YHAREXWHS Hib, 

(b) 如 果 TS(T) < WTX), WE WH LARA SBA. RT; 即 ， 中 止 7 并 以 一 个 新 的 、 
更 大 的 时 间 惟 重启 它 。 

2. 假设 调度 器 收 到 请 求 wz (X)。 

(a) 如 果 TS(7) 宇 RT(X) 并 且 TS(DD>wT(X)， 此 写 是 物理 上 可 实现 的 并 且 必 须 执行 。 
i 为 X 写 人 新 值 ; 
ii, 置 WTOO := TS(T), FB 
iii. 置 C(X) := false, 

b) MATS(NSRTI(X), 但 是 TS(T) < WTCO 此 写 是 物理 上 可 实现 的 ， 但 X 中 已 名 经 有 一 个 
更 晚 的 值 。 如 果 c( 加 为 真 ， 那 么 前 一 个 写 X 的 已 经 提交 ， 我 们 只 要 忽略 7 的 写 ; RN 
人 允许 T 不 对 数据 库 做 任何 改变 而 继续 进行 下 去 。 但 是 ， 如 果 c( 加 为 假 ， 那 么 我 们 必须 
像 1ajii 点 中 那样 推迟 7。 

(c) 如 果 TS(T) < RT(X)， 那么 此 写 是 物理 上 不 可 实现 的 ， 而 T 必 须 被 回 滚 。 

3. 假设 调度 器 收 到 提交 7 的 请 求 。 它 必须 ( 使 用 调度 器 维护 的 一 个 列表 ) 找到 7 所 写 的 所 有 
数据 库 元 素 X， 并 置 C(X) := true。 如 果 有 任何 等 待 X 被 提交 的 事务 〔 从 另 一 个 调度 器 维护 的 列 
表 中 找到 )， 那 么 这 些 事务 被 允许 继续 进行 

4. 假设 调度 器 收 到 中 止 7 的 请 求 ， 或 决定 像 在 lb 和 2c 中 那样 回 滚 T。 那 么 任何 等 待 7 所 写 元 
素 X 的 事务 必须 重新 尝试 读 或 写 ， 看 这 一 动作 在 取消 已 中 止 事 务 的 写 是 否 合法 。 

例 18.26 ”图 18-39 给 出 了 的 三 个 事务 T1、T 和 TT; 的 一 个 调度 ， 这 三 个 事务 访问 三 个 数据 库 
元 素 4、B 和 C。 事 件 发 生 的 实际 时 间 照 常 随 页 面向 下 而 增 大 。 但 是 ， 我 们 还 指明 了 事务 的 时 间 
截 以 及 元 素 的 读 写 时 间 。 我 们 假设 在 开始 时 ,每 个 数据 库 元 素 具有 的 读 时 间 和 写 时 间 均 为 0。 
事务 的 时 间 稚 是 在 它们 通知 调度 器 自己 开始 执行 时 获得 的 。 请 注意 ， 尽 管 7 执行 第 一 个 数据 访 
问 ， 但 它 并 不 具有 最 小 的 时 间 惟 。 假 设 刀 第 一 个 通知 调度 器 自己 开始 执行 ， 接 着 是 矿 ， 而 有 最 
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图 18-39 = SESS EERE TAY R EE F RT 
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许 发 生 。8B 的 读 时 间 被 置 为 了 的 时 间 惟 200。 第 二 和 第 三 个 读 动 作 同样 是 合法 的 ， 导 致 各 数据 库 
元 素 的 读 时 间 被 署 为 读 它 的 事务 的 时 间 戳 。 

在 第 四 步 ， 九 写 有 。 由 于 B 的 写 时 间 不 大 于 用 的 时 间 惟 ， 此 写 在 物理 上 可 实现 。 由 于 B 的 写 
时 间 不 大 于 妃 的 时 间 稚 ， 我 们 必须 真正 执行 此 写 。 这 样 做 时 ，B 的 写 时 间 增 加 到 200， 即 执行 写 
操作 的 事务 到 的 时 间 戳 。 

接 下 来 ，7 试 图 写 C。 但 是 ，C 已 经 被 事务 7 所 读 ， 用 理论 上 的 执行 时 间 是 175， 而 了 将 在 
时 间 150 写 它 的 值 。 因 此 ，7; 试 图 做 的 事 将 导致 物理 不 可 实现 的 行为 ， 因 而 了 必须 回 液 。 

最 后 一 步 ，T 写 4。 由 于 4 的 读 时 间 150 小 于 的 时 间 惟 175， 因 此 写 是 合法 的 。 但 是 , 已 经 
有 一 个 较 晚 的 4 值 存储 在 该 数据 库 元素 中 , 即 由 Ti 理论 上 在 时 间 200 写 人 的 值 。 因此, TRER, 
但 它 也 不 写 人 自己 的 值 。 口 


18.8.5 多 版 本 时 间 稚 . 

时 间 截 的 一 个 重要 变 体 除 了 维护 数据 库 元 素 当前 的 、 存 储 在 数据 库 自身 中 的 版 本 外 ， 还 维 
护 数据 库 元 素 的 旧版 本 。 目 的 是 允许 其 他 情况 下 将 导致 事务 7 中 止 (由 于 7 的 当前 版 本 应 在 7 以 
EBA ) 的 读 操作 广 (如 继续 进行 ， 这 是 通过 让 具有 7 时 间 惟 的 事务 读 适 合 它 的 X 的 版 本 来 达到 
的 。 如 果 数 据 库 元 素 是 块 或 页 ， 这 种 方法 特别 有 用 ， 因 为 这 时 所 需 做 的 只 是 让 缓冲 区 管理 器 在 
主 存 中 容纳 对 当前 活跃 的 某 个 事务 来 说 可 能 有 用 的 某 些 块 。 

例 18.27 考虑 图 18-40 所 示 的 访问 数据 库 元 素 4 的 事务 集合 。 这 些 事务 在 基于 时 间 葵 的 普通 
调度 器 下 操作 ， 且 当 到 试 图 读 A 时 ， 它 发 现 wr() 比 自己 的 时 间 截 大， 因此 必须 中 止 。 但 是 ，A 
ATT, SAR RSMAS 7 去 读 ; A 的 这 一 版 本 的 写 时 间 为 150， 它 小 于 五 的 时 间 
W175. MRA 的 这 一 旧 值 可 以 获得 ,就 可 以 被 介 许 去 读 它 ， 尽 管 它 不 是 4 的 “当前 ” 值 。 口 - 

T2 Ts Ta A 

200 175 225 RT=0 
WT=0 
RT=150 
WT=150 


RT=200 
WT=200 








终止 ”74(A) RT=225 
图 18-40 了 由 于 不 能 访问 4 的 旧 值 而 必须 终止 
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1. 当 新 的 写 wr(%) 发 生 时 ， 如 果 它 合法 ， 那 么 数据 库 元 素 X 的 一 个 新 版 本 被 创建 。 其 写 时 间 
为 TS(T)， 并 且 我 们 将 用 义 来 指 代 它 ， 其 中 1 = TST | 

2. 当 读 rr (X) 发 生 时 ， 调 度 器 找到 X 的 版 本 XX,， 它 满足 :TS(T)， 并 且 不 存在 满足 :<r' < 
TS(D) 的 版 本 X.。 也 就 是 说 ， 恰 好 在 7 理论 上 执行 前 写 入 的 X 版 本 是 T 所 读 的 版 本 。 

3. 写 时 间 与 元 素 的 版 本 相关 ， 且 永 不 改变 。 

4. 读 时 间 也 与 版 本 相关 。 它 们 被 用 来 拒绝 某 些 写 操作 ， 例 如 时 间 小 于 原 有 版 本 读 时 间 的 写 


操作 。 图 18-41 表 示 了 这 一 问题 ， 其 中 X 有 版 本 Xso 和 Xio， RT=80 
AUER TROBE, ERETI LAE BOO 
的 事务 7 执行 的 写 操作 。 这 一 写 操作 必然 使 ?中 止 ， 因 为 一 一 
如 果 7 被 允许 执行 ， 则 它 关于 X 的 值 应 该 被 具有 时 间 蕉 80 | B 
的 事务 读 到 。 an 100 
5. 当 版 本 X R E EAS EEA BR Ss KT ERAR mT 60H 
不 小 于 {时 ， 我 们 就 可 以 删除 x 的 任何 早 于 的 版 本 。 FIRAN 
例 18.28 ”让 我 们 重新 考虑 图 18-40 中 的 动作 在 使 用 图 18-41 事务 试图 号 人 使 事件 
多 版 本 时 间 改 时 的 情况 。 首 先 ，4 有 三 个 版 本 : 这 些 事 事实 上 不 可 实现 的 X 版 本 


务 开始 前 存在 的 版 本 4o， 九 写 人 的 4s， 以 及 T, 写 人 的 4z20o。 图 18-42 给 出 了 事件 序列 、 版 本 何 时 
被 创建 以 及 它们 何 时 被 读 取 。 特 别 注意 二 不 必 中 止 ， 因 为 它 可 以 读 4 的 一 个 较 早 的 版 本 。 口 


Te T T; Ao Aiso A200 
200 175 225 





T2 (A) 
We (A) 
r3(A) 





r4(A) 
图 18-42 使 用 多 版 本 并 发 控制 的 事务 执行 
18.8.6 HERS a 

在 大 多 数 事务 只 读 或 并 发 事务 极 少 试图 读 写 同一 元 素 的 情况 下 ， 时 间 惟 通常 比较 优越 。 在 
高 冲突 的 情况 下 ， 封 锁 的 性 能 比较 好 。 对 这 一 经 验 规律 的 论证 为 ， 

* 封锁 在 事务 等 待 锁 时 会 频繁 地 推迟 事务 ， 甚至 可 能 导致 死 锁 ， 这 时 多 个 事务 等 待 一 段 很 

长 的 时 间 ， 然 后 其 中 一 个 不 得 不 回 滚 。 
“ 但 如 果 并 发 事务 频繁 读 写 公 共 元 素 ， 那 么 回 滚 就 会 很 频繁 ， 导 致 甚至 比 封锁 系统 中 更 多 
的 延迟 。 

在 几 个 商用 系统 中 有 一 个 折 中 方案 。 调 度 器 将 事务 分 为 只 读 事 务 和 读 / 写 事务 。 读 / 写 事务 
使 用 两 阶段 封锁 执行 ， 避 免 读 / 写 事务 相互 间 访 问 对 方 封锁 的 元 素 ， 以 及 避免 只 读 事 务 访问 它 
们 封锁 的 元 素 。 

只 读 事 务 使 用 多 版 本 时 间 惟 执行 。 当 读 / 写 事务 创建 数据 库 元 素 的 新 版 本 时 ， 这 些 版 本 按 
18.8.5 节 所 述 进行 管理 。 只 读 事 务 允 许 读 适合 于 其 时 间 截 的 任何 数据 库 元 素 版 本 。 因 此 只 读 事 
务 从 不 会 被 终止 ， 只 在 极 少时 候 被 推迟 。 

18.8.7 习题 
习题 18.8.1 下 面 是 几 个 事件 序列 ， 包 括 开始 事件 ， 其 中 st; 表示 事务 开始。 这些 序列 表示 
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AX, He SEPA RAER RRA eB ARR. LB 
列 执行 时 将 发 生 什么 。 
* a) sti; st2; r1(A); r2(B); we(A); wi(B); 
b) sti; r(A); stz; we(B); r2(A); wi (B); 
c) sti; stz; stai 71(A); r2(B); wi(C); ra(B); r3(C); we(B); ws (A); 
d) sty; sts; sta; rı (A); r2(B); wi(C); r3(B); r3(C); we(B); ws(A); 


习题 18.8.2 GAAP SEE PE PG EE , SR AE FY RT BR AY 
调度 器 。 而 如 果 调 度 器 不 维护 多 个 版 本 时 ， 又 将 发 生 什 么 ? 


* a) sti; st2; sts; sta; wi(A); we(A); w3(A); re(A); ra(A); 
b) sti; stz; stg; sta; wi (A); wa(A); r4(A); re(A); 


c) sti; stz; stg; sta; wi (A); wa(A); 73(A); we2(A); 


习题 18.8.3 ”在 对 基于 锁 的 调度 器 的 学 习 中 ,我 们 发 现 获得 锁 的 事务 发 生死 锁 的 原因 有 几 
个 。 使 用 提交 位 cC9 的 基于 时 间 戳 的 调度 器 可 能 有 死 锁 吗 ? 


18.9 使 用 有 效 性 确认 的 并 发 控制 


有 效 性 确认 是 另 一 种 优化 的 并 发 控制 类 型 ， 其 中 我 们 允许 事务 不 经 封锁 访问 数据 ， 并 在 适 
当 的 时 候 我 们 检查 事务 是 否 以 一 种 可 串 行 化 的 方式 运转 。 有 效 性 确认 与 时 间 戳 的 主要 区 别 在 于 
调度 器 维护 关于 活跃 事务 正在 做 什么 的 一 个 记录 ， 而 不 是 为 所 有 数据 库 元 素 保存 读 时 间 和 写 时 
间 。 事 务 开始 为 数据 库 元 素 写 入 值 前 的 一 刹那 ， 它 经 过 一 个 “有 效 性 确认 阶段 ”"， 这 时 它 已 经 
读 的 和 将 写 的 元 素 集 合 被 用 来 与 其 他 活 唉 事务 的 写 集合 做 比较 。 如 果 存 在 物理 上 不 可 实现 的 行 
为 的 风险 ， 该 事务 就 被 回 滚 。 
18.9.1 基于 有 效 性 确认 的 调度 器 的 结构 

当 有 效 性 确认 被 用 作 并 发 控制 机 制 时 ， 对 每 个 事务 7， 调 度 器 必须 被 告知 7 所 读 的 数据 库 元 
素 集合 与 7 所 写 的 元 素 集合 。 这 些 集合 分 别 是 读 集合 Rs(7) 和 写 集合 ws( 站 。 事 务 分 三 个 阶段 来 
执行 : 

1. 读 。 在 第 一 阶段 ， 事 务 从 数据 库 中 读 其 读 集合 中 的 所 有 元 素 。 事 务 还 在 其 局 部 地 址 空间 
中 计算 它 将 要 写 的 所 有 值 。 

2. 有 效 性 确认 。 在 第 二 阶段 ， 调 度 器 通过 比较 该 事务 与 其 他 事务 的 读 写 集合 来 确认 该 事务 
的 有 效 性 。 我 们 将 在 18.9.2 节 描述 有 效 性 确认 过 程 。 如 果 有 效 人 性 确认 失败 ， 则 事务 回 滚 ;， 否则 
它 继 续 进 入 第 三 阶段 。 

3. 写 。 在 第 三 阶段 ， 事 务 往 数据 库 中 写 人 其 写 集合 中 元 素 的 值 。 
直观 地 说 ， 我 们 可 以 认为 每 个 成 功 确认 的 事务 是 在 其 有 效 性 确认 的 瞬间 执行 的 。 因 此 ， 基 于 有 
效 性 确认 的 调度 器 对 事务 的 进行 有 一 个 假定 的 串 行 顺序 ， 并 且 它 根据 事务 行为 是 否 与 这 一 串 行 
顺序 一 致 来 决定 确认 事务 是 否 有 效 。 

为 了 支持 做 出 是 否 确认 事务 有 效 性 的 决定 ， 调 度 器 维护 三 个 集合 : 

1. START， 已 经 开始 但 尚未 完成 有 效 性 确认 的 事务 集合 。 对 这 个 集合 中 的 每 个 事务 T， 调 
度 器 维护 START (T) ， 即 事务 7 开始 的 时 间 。 
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2. VAL， 已 经 确认 有 效 性 但 尚未 完成 第 3 阶段 写 的 事务 。 对 这 个 集合 中 的 每 个 事务 7， 调 度 
器 维护 START (T) 和 VAL (7) ， 即 7 确认 的 时 间 。 请 注意 ，VaL (7) 也 是 在 假设 的 串 行 执行 顺序 
中 所 设想 的 7 的 执行 时 间 。 

3. FIN, 已 经 完成 第 3 阶段 的 事务 。 对 这 样 的 事务 T7， 调 度 器 记录 START (T), VALT) 和 
FIN (7) ， 即 7 完成 的 时 间 。 原 则 上 这 个 集合 将 增长 ,但 正如 我 们 将 看 到 的 ， 如 果 对 任意 活跃 
事务 U( 即 对 任何 在 START 或 VAL 中 的 U )， 事 务 T 满 足 FIN (T) <START (U) ， 这 样 的 7 我 们 不 必 
记 住 。 调 度 器 因此 可 以 周期 性 地 清理 FIN 集 合 ， 以 防止 其 增 大 到 超过 限度 。 

18.9.2 有效 性 确认 规则 

如 果 由 调度 器 维护 18.9.1 节 中 的 信息 ， 这 些 信息 足以 使 它 能 够 监测 出 任何 违反 假设 的 事务 
串 行 顺序 的 潜在 可 能 ， 假 设 的 事务 串 行 顺序 即 事务 有 效 性 确认 的 顺序 。 为 了 理解 这 些 规 则 ， 让 
我 们 首先 考虑 当 我 们 想 要 确认 一 个 事务 有 效 性 时 可 能 发 生 什么 错误 。 

1. 假设 存在 事务 U 满 足 : 

(a) U 在 VAL 或 FIN 中 ; 即 U 已 经 过 有 效 性 确认 。 
(b) FIN(U) > START(T); 即 U 在 7 开始 前 没有 完成 。。 
(c) RS(T)NWSCU)AEZS ; 特别 地 ， 设 其 包含 数据 库 元 素 X。 

那么 有 可 能 在 7 读 X 后 写 X。 事 实 上 ，V 甚 至 可 能 还 没有 写 X。V 写 了 X 但 并 不 及 时 的 一 种 
情况 如 图 18-43 所 示 。 为 了 解释 这 个 图 ， 请 注意 虚线 将 实时 的 事件 与 事务 在 其 有 效 性 确认 瞬间 
执行 时 这 些 事件 发 生 的 时 间 联 系 起 来 。 由 于 我 们 不 知道 7 是 否 读 到 U 的 值 ， 我 们 必须 回 滚 T 以 避 
免 T 和 上 U 的 动作 与 假设 的 串 行 顺序 不 一 致 的 风险 。 

2. REFERS UWE: 

(a) U 在 VAL 中 ; 即 U 的 有 效 性 已 经 成 功 确认 。 
(b) FIN(U) > VAL(T); 即 在 T 进 入 其 有 效 性 确认 阶段 以 前 没有 完成 。 
(O WS(T)NWS(U)4@; 特别 地 ， 设 X 同 时 在 两 个 写 集合 中 。 

这 时 潜在 的 问题 如 图 18-44 所 示 。7 和 DZ 都 必 须 写 X 的 值 ， 而 如 果 我 们 确认 7 的 有 效 性 ， 它 就 

可 能 在 V 前 写 X。 由 于 我 们 不 能 确定 ， 因 此 回 滚 7 以 保证 它 不 会 违反 假设 的 7 在 V 后 的 串 行 顺序 。 





U 开 始 





7 正在 确认 U 完 成 
图 18-43 如 果 一 个 较 早 的 事务 现在 正在 写 入 T 应 图 18-44 如 果 7 在 有 效 性 确认 后 并 在 一 个 较 早 
该 读 过 的 某 些 东西 ， 则 7 的 有 效 性 不 能 确认 的 事务 之 前 先 写 某 些 东西 ， 则 7 不 能 确认 


上 面 描述 的 两 个 问题 是 7 的 写 可 能 在 物理 上 不 可 实现 的 仅 有 的 情形 。 在 图 18-43 中 ， 如 果 U 
在 7 开始 前 完成 ， 那 么 7 肯定 应 该 读 到 UU 或 某 个 更 晚 的 事务 所 写 的 X 值 。 在 图 18-44 中 ， 如 果 U 在 


© 请 注意 ,如果 U 在 VAL 中 ， 那 么 当 7 确认 时 U 尚 未 完成 。 在 这 种 情况 下 ，FIN( 中 在 技术 上 是 未 定义 的 。 但 是 ， 我 
们 知道 这 种 情况 下 它 必 然 大 于 sTART(T。 
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7 法 行 有 效 性 确认 前 完成 ， 那么 U 肯 定 在 7 前 写 X。 因 此 我 们 可 以 用 下 面 关 于 事务 7 进行 有 效 性 确 
认 的 规则 来 概括 这 些 发 现 。 
。 对 于 所 有 已 经 过 有 效 性 确认 且 在 7 开始 前 没有 完成 的 已， 即 对 于 满足 FIN(LD) > START(T) 
的 0， 比较 RS(TD 和 ws( 思 以 检测 是 否 满足 RS(DNws(D) =Ò, 
。 对 于 所 有 已 经 过 有 效 性 确认 日 在 T 经 过 有 效 性 确认 前 没有 完成 的 U， 即 对 于 满足 FIN(U) > 
VAL(D 的 U， 比 较 ws( 允 和 Wws( 思 以 检测 是 否 满 足 WS(DDNWS(DD=@®。 
例 18.29 ”图 18-45 给 出 了 四 个 事务 T、U、V 和 W 试 图 执行 并 确认 有 效 性 的 时 间 线 。 每 个 事 
务 的 读 写 集合 都 在 图 中 标明 。7T 先 开始 ， 尽 管 U 最 先进 行 有 效 性 确认 。 


RS = {B} RS = {A, D} 
WS = {D} WS = {A, C} 
U Ww 





T Vv 
RS={A,B} RS={B} 
WS={A,C}  WS={A,C} 


图 18-45 四 个 事务 及 其 有 效 性 确认 


1. U 的 有 效 性 确认 : 当 确 认 U 的 有 效 性 时 没有 其 他 已 确认 事务 ， 因 而 什么 也 不 需要 检测 。 
U0 成 功 确认 其 有 效 性 并 为 数据 库 元 素 D 写 人 一 个 值 。 

2. 7 的 有 效 性 确认 ， 当 确认 7 的 有 效 性 时 ，U 已 确认 但 尚未 完成 。 因 此 ， 我 们 必须 检测 7 的 
读 写 集合 是 否 满足 与 WS(U) = {D} 没 有 公共 元 素 。 由 于 RS(TD = {A4，B}， 而 WwS(DD) = {A，C}, 两 
个 检测 都 成 功 ， 因 而 确认 7 的 有 效 性 。 

3. VINA: 当 确 认 VY 的 有 效 性 时 ，Z 已 确认 和 完成 ，7 已 确认 但 尚未 完成 。 并 且 V 在 
Q 完 成 前 开始 。 因 此 ， 我 们 必须 用 Rs(V) 与 W8( 岂 来 和 ws(7) 比 较 ， 但 只 需 用 Rs( 由 来 和 ws(zn) 比 
较 。 我 们 发 现 : 

e RS(V)N ws(T) = {B}N{A4,C}=® 

« ws(V) N ws(T) = {D,E} N {4,C} = © 

e RS(V) N ws(U) = {B} Nn {D} =o 


因此 ，YVY 的 有 效 性 也 成 功 确 认 。 







瞬时 行为 
你 可 能 已 经 注意 到 确认 这 一 动作 在 皮 间 或 不 可 分 的 时 间 内 发 生 这 一 概念 。 例 如， 想 

像 一 下 我 们 能 够 确定 在 我 们 开始 确认 事务 T 前 事务 U 是 否 已 经 确认 。U 可 能 在 我 们 正在 确 

认 T 时 完成 确认 吗 ? 

如 果 在 单 处 理 器 的 系统 上 运行 ， 并 且 具 有 一 个 调度 器 进程 ， 那 么 我 们 确实 可 以 将 确 
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认 或 调度 器 的 其 他 动作 看 做 是 在 瞬间 发 生 的 。 原 因 在 于 ， 如 果 调 度 器 正在 确认 T， 它 就 不 
可 能 也 正在 确认 UU， 所 以 在 T 确 认 的 整个 过 程 中 ，U 的 确认 状态 不 会 改变 。 


如 果 我 们 运行 在 多 处 理 器 上 ， 并 且 有 多 个 调度 器 进程 ， 那 么 就 有 可 能 一 个 在 确认 了 ， 
而 另 一 个 在 确认 LU。 如 果 这 样 ， 那 么 我 们 需要 依赖 多 处 理 器 系统 所 提供 的 同步 机 制 来 使 确 
认 成 为 一 个 原子 的 动作 。 





4. W 的 有 效 性 确认 : 当 确 认 W 的 有 效 性 时 ,我们 发 现 U 在 W 开 始 前 已 完成 ， 因 此 在 W 与 U 之 
间 不 执行 任何 比较 。7T 在 W 确 认 前 完成 但 未 在 W 开 始 前 完成 ， 因 此 我 们 只 比较 RS( 玉 和 WS(。 
V 已 确认 但 尚未 完成 ， 因 此 我 们 需要 用 RS(WW 与 WS(WW 来 和 ws( 妃 比较。 检测 如 下 : 
_* RS(W) Nws(T) = {A, D} N {4, C} = {4} 
e RS(W) N ws(V) = {4, D} N {D, E} = {D} 
e WS(W) Nn ws(V) = {A,C} N{D, E} = 中 


由 于 交集 并 非 都 为 空 ， 因 此 W 的 有 效 性 不 能 确认 。 相 反 ，Ww 被 回 滚 且 不 为 4 或 C 写 入 值 。 O 


18.9.3 三 种 并 发 控制 机 制 的 比较 
我 们 已 经 考虑 过 的 三 种 可 串 行 性 方法 (封锁 、 时 间 戳 和 有 效 性 确认 ) 各 有 其 优点 。 首 先 ， 
可 以 在 存储 的 利用 率 上 进行 比较 : 
。 封 锁 : 锁 表 空间 与 被 封锁 元 素 个 数 成 正比 。 
HR: 在 不 成 熟 的 实现 中 ， 每 个 数据 库 元 素 的 读 时 间 和 写 时 间 都 需要 空间 ， 不 管 该 元 
素 当 前 是 否 被 访问 。 但 是 ， 更 精细 的 实现 会 将 最 早 的 活跃 事务 以 前 的 所 有 时 间 惟 看 做 
“ 负 无 穷 "， 并 且 不 记录 它们 。 在 这 种 情况 下 ， 我 们 可 以 类 似 锁 表 那样 将 读 时 间 和 写 时 间 
记录 在 一 张 表 中 ， 其 中 只 给 出 那些 最 近 已 经 被 访问 过 的 数据 库 元 素 。 
。 有 效 性 确认 : 对 于 每 个 当前 活路 的 事务 以 及 少量 几 个 在 某 当前 活路 事务 开始 后 完成 的 事 
务 ， 空 间 用 于 时 间 蕉 和 读 / 写 集合 
因此 ， 每 种 方法 使 用 的 空间 数量 大 致 正比 于 所 有 活路 事务 访问 的 数据 库 元 家 之 和 。 时 间 夫 
和 有 效 性 确认 可 能 使 用 空间 略微 多 一 些 ， 因 为 它们 记录 最 近 提 交 事务 的 某 些 访 问 ， 而 这 是 锁 表 
所 不 记录 的 。 有 效 性 确认 的 一 个 潜在 问题 是 ， 事务 的 写 集合 必须 在 写 发 生 以 前 (但 在 事务 的 局 
部 计算 已 经 完成 后 ) 知道 。 
我 们 还 可 以 在 不 推迟 事务 完成 的 能 力 方面 比较 这 些 方法 的 成 效 。 这 三 种 方法 的 性 能 依赖 于 
事务 间 的 相互 影响 (事务 访问 一 个 并 发 事务 所 访问 元 素 的 可 能 性 ) 是 高 还 是 低 。 
“封锁 推迟 事务 但 避免 回 滚 ， 即使 当 相互 影响 较 离 时 。 时 间 稚 和 有 效 性 确认 不 推迟 事务 ， 
但 会 导致 其 回 滚 ， 而 这 是 推迟 的 一 种 更 严重 的 形式 ， 并 且 也 浪费 资源 。 
。 如 果 相 互 影响 较 低 ， 那么 时 间 稚 和 有 效 性 确认 都 不 会 导致 大 多 的 回 深 ， 并 且 因为 它们 通 
” 常 比 封锁 调度 器 开销 小 而 更 受 欢迎 。 
* 当 回 滚 是 必要 的 时 ， 时 间 截 比 有 效 性 确认 更 早 地 捕获 某 些 问题 ， 或 者 在 考虑 一 个 事务 是 
否 必须 回 滚 前 常常 让 其 做 完 所 有 的 内 部 工作 。 
18.9.4 习题 
习题 18.9.1 ”在 下 列 时 间 序 列 中 ， 我 们 用 Ri(X) 表 示 “ 事 务 7 开始 ， 且 其 读 集合 是 数据 库 元 
素 列表 X ”。 此 外 ，V; 表 示 “7; 试 图 确认 有 效 性 ”， 而 W( 芒 表示 “事务 7 完成 ， 且 其 写 集合 
是 X”。 说 明 当 一 个 基于 有 效 性 确认 的 调度 器 处 理 每 个 序列 时 会 发 生 什么 。 
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*a) Ri(A,B); Ro(B,C); Vi; Rs(C, D); Va; W1 (A); Vz; We(A); Wa(B); 
b) Ri(A, B); Re(B,C); Vi; Ra(C, D); Va; Wi(A); Vz; W2(4); Ws(D); 
c) Rı(A, B); Ra(B, C); Vis R3(C, D); Va; Wi(C); Vz; Wa(A); Wa(D); 
d) Ri (4, B); Ra(B,C'); R3(C); Vi; Vz; Va; Wi (4); W2(B); Wa(C); 

e) Ri(4,B); Ra(B,C}; Rs(C); Vi; Vz; Va; Wi(C); W2(B); W3(A); 
f) Ri (A,B); R2(B,C); Ra(C); Vi; Vz; Va; W1 (A); W2(C); Wa3(B); 


18.10 小 结 


.一 致 的 数据 库 状 态 ; 遵循 设计 者 想 要 的 所 有 隐 含 的 或 声明 的 约束 的 数据 库 状态 被 称 为 是 
一 致 的 。 数 据 库 上 的 操作 保持 一 致 性 是 必要 的 ， 即 将 一 个 一 致 的 数据 库 状 态 转换 到 另 一 
个 。 
.并 发 事务 一 致 性 : 多 个 事务 同时 访问 一 个 数据 库 是 很 正常 的 。 隔 离开 来 执行 的 事务 是 候 
定 能 保持 数据 库 -- 致 性 的 。 保 证 并 发 操作 的 事务 也 保持 数据 库 的 一 致 性 是 调度 器 的 任务 。 
AR: 事务 被 划分 为 动作 ， 主 要 是 对 数据 库 的 读 和 写 。 来 自 一 个 或 多 个 事务 的 这 些 动作 
的 一 个 序列 称 为 一 个 调度 。 

“ 惠 行 调度 ， 如 果 一 次 执行 一 个 事务 ， 则 该 调度 被 称 为 是 串 行 的 。 

TRILAR: 某 个 调度 在 对 数据 库 的 效果 上 等 价 于 某 个 串 行 调度 ， 则 被 称 为 是 可 曲 行 
化 的 。 在 一 个 可 串 行 化 的 但 非 品行 的 调 庆 中 ， 来 自 几 个 事务 的 动作 相互 交错 是 可 能 的 ， 
但 是 对 于 我 们 允许 的 那些 动作 序列 必须 要 小 心 ， 否 则 一 个 交错 将 使 数据 库 处 于 不 一 致 的 
状态 。 

“冲突 可 品行 性 : 可 串 行 性 的 一 个 易于 判断 的 充分 条 件 是 调度 能 通过 一 系列 相 邻 动作 的 非 
冲突 交换 转变 为 品行 的 。 这 样 的 调度 称 为 冲突 可 串 行 化 调度 。 如 果 我 们 试图 交换 同一 事 
务 的 两 个 动作 ， 或 者 交换 访问 同一 数据 库 元 素 的 两 个 动作 而 其 中 至 少 一 个 动作 是 写 ， 屠 

_ 么 冲突 将 发 生 。 | 
“优先 图 : 冲突 可 品行 性 的 一 种 简单 的 测试 方法 是 为 调度 构造 一 个 优先 图 。 结 点 对 应 于 事 
务 ， 而 如 果 某 个 动作 7 在 调度 中 与 一 个 比较 靠 后 的 动作 U 冲 突 ， 那 么 就 有 一 条 弧 T+U。 调 
BMT RTL, 4B ORE. 

* 封锁， 保证 可 品行 化 调度 最 常用 的 方法 是 在 访问 数据 库 元 素 前 先 封锁 ， 并 在 完成 对 该 元 
素 的 访问 后 释放 其 锁 。 元 素 上 的 锁 禁止 其 他 事务 访问 该 元 素 。 

“两 阶段 封锁 ;封锁 自身 并 不 能 保证 可 品行 性 。 但 是 ， 两 阶段 封锁 能 保证 可 品行 性 ， 在 两 
阶段 封锁 中 所 有 事务 首先 进入 一 个 只 申请 锁 的 阶段 ， 然 后 进入 一 个 只 释放 锁 的 阶段 。 

“ 封锁 模式 : 为 了 避免 不 必要 地 将 事务 封锁 在 外 ， 系 统 通常 使 用 多 种 封锁 模式 ， 对 每 种 模 
式 什么 时 候 可 以 授予 锁 有 不 同 的 规则 。 最 常用 的 系统 中 包含 用 于 只 读 访问 的 共享 锁 和 用 
于 包括 写 的 访问 的 排他 锁 。 

* 相 容 性 短 隆 : 相 容 性 矩阵 是 对 已 知 同一 元 素 上 可 能 有 另 一 模式 或 同一 模式 的 锁 情况 下 ， 
授予 某 种 模式 的 锁 什么 时 候 合法 的 一 种 有 用 的 汇总 。 

LAM: 调度 器 允许 一 个 先 读 再 写 一 个 元 素 的 事务 首先 获得 一 个 更 新 锁 ， 而 在 以 后 将 访 
锁 升级 为 排他 锁 。 更 新 锁 在 元 素 上 已 经 有 共享 锁 时 可 以 被 授予 ， 但 一 日 元 素 上 有 了 一个 
更 新 镇， 它 就 禁止 在 该 元 素 上 极 予 其 他 镇 。 
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HEM: 对 于 事务 只 想 在 元 素 上 增加 或 减少 一 个 常数 这 一 常见 的 情况 ， 增 量 锁 非 常 适合 。 
同一 元 素 上 的 增 量 锁 相 互 不 冲突 ， 尽 管 它们 同 共享 锁 以 及 排他 锁 冲 突 。 

。 有 粒度 层次 元 素 的 封锁 : 当 大 的 元 素 和 小 的 元 素 (或 许 是 关系 、 磁 盘 块 和 元 组 ) 都 可 能 
需要 被 封锁 时 ， 警 示 封 锁 系 统 保证 可 串 行 性 。 事 务 在 大 的 元 素 上 加 意向 锁 ， 以 警示 其 他 
事务 自己 打算 访问 该 元 素 的 一 个 或 多 个 子 元 素 。 

“组 织 成 树 的 元 素 的 封锁 : 如 果 数据 库 元 素 只 在 沿 着 树 向 下 时 被 访问 ， 如 同 B 树 中 那样 ， 
那么 一 个 非 两 阶段 封锁 策略 可 以 用 来 保证 可 串 行 性 。 其 规则 要 求 在 子 结 点 上 上 锁 时 需要 
持 有 父 结 点 上 的 锁 ， 尽 管 父 结 点 上 的 锁 可 以 随后 释放 ， 而 且 以 后 可 以 获得 其 他 的 锁 。 
“优化 并 发 控制 : 调度 器 可 以 不 使 用 封锁 ， 而 假设 事务 是 可 串 行 化 的 ， 并 在 看 到 某 个 潜在 
的 非 可 串 行 化 行为 时 将 事务 中 止 。 这 种 被 称 为 是 优化 的 方法 分 为 基于 时 间 惟 的 调度 和 基 
于 有 效 性 确认 的 调度 。 

“基于 时 间 戳 的 调度 器 : 这 类 调度 器 在 事务 开始 时 为 其 赋予 时 间 惟 。 数 据 库 元 素 有 相关 的 读 
写 时 间 ， 它 们 是 最 近 执 行 这 些 操作 的 事务 的 时 间 戳 。 如 果 一 个 不 可 能 的 情况 被 检测 到 ， 例 
如 一 个 事务 读 到 在 该 事务 的 将 来 写 人 的 一 个 值 ， 那 么 违例 的 事务 被 回 滚 ， 即 中 止 并 重启 。 
“基于 有 效 性 确认 的 调度 器 : 这 些 调度 器 在 事务 已 经 读 完 所 有 它们 所 需要 的 东西 以 后 ， 但 
在 它们 写 以 前 确认 事务 有 效 性 。 事 务 如 果 已 经 读 或 将 要 写 另外 的 某 个 事务 正在 写 的 元 素 ， 
那么 将 产生 有 歧义 的 结果 ， 所 以 该 事务 的 有 效 性 不 能 确认 。 确 认 失 败 的 事务 被 回 滚 。 
“多 版 本 时 间 改 : 实践 中 用 于 只 读 事 务 的 一 种 常用 技术 是 使 用 时 间 惟 ， 但 有 多 个 版 本 ， 其 
中 对 一 个 元 素 的 写 不 覆盖 先前 为 该 元 素 写 人 的 值 ， 直 到 所 有 可 能 需要 先前 的 值 的 事务 已 
经 完成 。 写 事务 通过 传统 的 封锁 来 调度 。 
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第 19 章 ”再 论 事务 管理 


本 章 我 们 讨论 第 17 章 和 第 18 章 所 没有 谈 到 的 几 个 关于 事务 管理 的 问题 。 首 先 我 们 要 协调 一 
下 前 两 章 中 的 观点 : 错误 恢复 、 人 允许 事务 中 止 以 及 维护 可 串 行 性 这 三 种 需要 如 何 相互 影响 ? 接 


者 我 们 讨论 事务 间 的 死 锁 管理 ， 死 锁 通常 由 几 个 事务 引起 ， 这 些 事务 各 自 需要 等 待 一 个 被 另 一 : 


事务 占用 的 资源 ， 例 如 锁 。 

本 章 中 还 包括 了 对 分 布 式 数据 库 的 介绍 。 我 们 主要 讨论 如 何 封 锁 分 布 在 几 个 节点 中 的 元 素 ， 
这 些 元 素 可 能 有 多 个 副本 。 我 们 还 要 考虑 当 事 务 自身 涉及 几 个 节点 上 的 动作 时 ， 事 务 提 交 或 中 
止 的 决定 怎样 做 出 。 

最 后 我 们 考虑 由 “长 事务 ”引起 的 问题 。 某 些 应 用 中 人 和 计算 机 进程 需要 进行 交互 ， 例 如 
CAD 系 统 和 “工作 流 ” 系 统 ， 这 样 的 交互 可 能 长 达 数 天 。 这 些 系统 和 短 事务 系统 ( 如 银行 系统 
和 机 票 预订 系统 ) 一 样 需 要 保持 数据 库 状 态 的 一 致 性 。 但 是 ,第 18 章 讨论 的 并 发 控制 机 制 不 能 
很 好 地 工作 ， 因 为 锁 需 要 被 占用 数 天 ,或 者 有 效 性 确认 需要 基于 几 天 以 前 发 生 的 事件 。 


19.1 读 未 提交 数据 的 事务 


在 第 17 章 中 我 们 讨论 了 日 志 的 创建 以 及 在 系统 崩溃 时 如 何 使 用 日 志 恢复 数据 库 状 态 。 我 们 
引入 了 数据 库 计 算 的 视图 ， 即 值 在 非 易 失 性 磁盘 、 易 失 性 主 存 以 及 事务 的 局 部 地 址 空间 之 间 移 
动 。 各 种 日 志方 式 所 给 的 保证 是 ， 当 崩溃 发 生 时 ， 它 能 在 数据 库 的 磁盘 拷贝 中 重建 提交 事务 
( 而且 仅 有 提交 事务 ) 的 动作 。 日 志 系统 不 试图 支持 可 串 行 性 ; 它 盲 目地 重建 数据 库 状态 ， 即 
使 该 状态 是 由 动作 的 非 可 串 行 化 调度 产生 的 。 事 实 上 ， 商 用 数据 库 系统 不 一 定 总 是 坚持 可 串 行 
性 ， 在 有 的 系统 中 ， 仅 在 用 户 显 式 地 要 求 时 才 实 现 可 串 行 性 。 

刀 一 方面 ， 第 18 章 只 讨论 可 串 行 性 。 根 据 那 一 章 的 原则 设计 的 调度 器 可 能 做 出 日 志 管理 器 
所 不 能 容忍 的 事 。 例 如 ， 可 串 行 性 定义 不 禁止 封锁 元 素 4 的 事务 在 提交 前 为 4 写 人 新 值 ， 因 而 
违反 日 志 策 略 的 规则 。 更 粳 糕 的 是 ， 即 使 没有 发 生 系统 崩 泪 ， 并 且 调 度 器 在 理论 上 维护 可 串 行 
性 ， 事 务 也 可 能 在 写 数据 库 后 中 止 ， 而 这 很 容易 导致 数据 库 状 态 不 一 致 。 

19.1.1 脏 数据 问题 

回忆 一 下 8.6.5 的 内 和 容 ， 如 果 数 据 被 未 提交 事务 写 人 ， 那 么 该 数据 就 是 “ 脏 的 "。 脏 数据 可 
能 出 现在 缓冲 区 中 、 磁 盘 上 或 兼 而 有 之 ; 不 管 哪 一 种 都 可 能 导致 问题 。 

例 19.1 我们 重新 考虑 图 18-13 中 的 可 串 行 化 调度 ， 但 假设 在 Ti 读 8 后 由 于 某 个 原因 不 得 不 
中 止 。 事 件 系列 如 图 19-1 所 示 。 在 娓 中 止 后 ， 调 度 器 释放 五 所 获得 的 对 B 的 锁 ， 这 一 步骤 很 关 
键 ， 否 则 别 的 事务 就 永远 也 不 能 获得 B 上 的 锁 了 。 

但 是 ，7, 现 在 已 读 入 了 不 代表 数据 库 的 一 致 状态 的 数据 。 也 就 是 说 ，7; 读 到 的 4 值 是 7， 
修改 后 的 值 ， 而 它 读 到 的 8 值 是 采取 动作 以 前 的 值 。 在 这 种 情况 下 ,TT 是否 将 4 值 125 写 到 磁 
盘 无 关 紧 要 ; 不 管 怎样 ， 了 都 从 缓冲 区 中 得 到 该 值 。7 读 到 不 一 致 状态 的 后 果 是 ， 它 使 (磁盘 
上 的 ) 数据 库 处 于 不 一 致 的 状态 ， 其 中 4 XB, 

图 19-1 中 的 问题 在 于 ，T 写 人 的 4 是 脏 数 据 ， 不 管 它 在 主 存 中 还 是 在 硬盘 上 。7, 读 4， 然 后 
又 在 自己 的 计算 中 使 用 该 值 ， 这 就 使 7 的 动作 变 得 不 可 车。 正如 我 们 将 在 19.1.2 节 看 到 的 那样 ， 
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如 果 允 许 这 样 的 情况 发 生 ， 就 有 必要 中 止 和 回 滚 站 与 ?2 。 此 外 ， 如 果 人 允许 六 的 4 值 到 达 和 磁盘 ， 

修复 的 代价 就 很 高 ; 我 们 必须 用 日 志 撤销 相应 的 更 改 。 因 此 ， 我 们 需要 提出 一 些 防止 胜 数据 到 

达 磁 盘 的 规则 。 口 
Tı 


L(A); ri1(A); 
A := A+100; 
wi (A); h(B); «1 (A); 
L(A); r(A); 


A := A+2; 
wa (A); 
12(B) 被 拒绝 


12(B); u2(A); r2(B); 
B := Bx2; 
we(B); u2(B); 


图 19-1 7) A REG FB IE 

















; WT=175 
图 19-2 Ti 从 7T; 读 到 脏 数据 ， 因 而 当 二 中 止 时 T 也 必须 终止 


例 19.2 ”现在 考虑 图 19-2， 它 给 出 了 18.8 节 中 基于 时 间 戳 的 调度 器 下 的 一 个 动作 序列 。 但 
是 ,我 们 假设 这 一 调度 器 不 使 用 18.8.1 节 中 所 引入 的 提交 位 。 回 忆 一 下 ， 提 交 位 的 目的 是 防止 
未 提交 事务 写 人 的 值 被 其 他 事务 读 取 。 因 此 ， 当 7 在 第 二 步 读 取 B 时 ， 没 有 提交 位 来 告诉 T 它 
需要 等 待 。 刀 可 以 继续 执行 ， 甚 至 可 以 写 磁 盘 并 提交 ; RTA PAM TOR, 

最 后 ,7 试图 以 一 种 物理 上 不 可 实现 的 方式 写 C，7; 因 而 中 止 。 以 前 写 8 所 产生 的 效果 被 
AA; 8 的 值 和 写 时 间 分 别 重 置 为 2 写 以 前 的 值 和 写 时 间 。 然 而 ，T' 已 被 允许 使 用 这 一 撤销 的 B 
值 ， 并 能 用 该 值 做 任何 事情 ， 例 如 用 它 来 计算 4、B 和 和 /或 C 的 新 值 ， 并 将 它们 写 回 磁盘 。 因 此 ， 
7 在 读 3 的 脏 值 后 可 能 会 导致 不 一 致 的 数据 库 状 态 。 请 注意 ， 如 果 记 录 并 使 用 提交 位 ， 那 么 第 2 
Pin BACHE, DASA, FABRE RE IR (假设 已 提交 的 ) 值 后 ， 这 一 动 
作 才 允许 发 生 。 口 


19.1.2 级 联 回 滚 

正如 我 们 在 上 面 的 例子 中 看 到 的 那样 ， 如 果 事 务 可 以 获得 脏 数据 ， 那 么 有 时 候 我 们 需要 执 
行 级 联 回 滚 。 也 就 是 说 ， 当 事务 7 中 止 时 ， 我 们 必须 确定 哪些 事务 读 了 由 7 写 人 的 数据 ， 中 止 这 
些 事务 ， 然 后 递归 地 中 止 读 了 由 被 中 止 事务 所 写 的 数据 的 所 有 事务 。 换 言 之 ， 我 们 必须 找到 每 
个 读 了 7 所 写 的 脏 数据 的 事务 VU， 中 止 U， 再 找到 每 个 读 了 U 所 写 的 脏 数据 的 事务 Y， 中 止 Y， 依 
此 类 推 。 如 果 日 志 是 提供 改 前 值 的 某 类 日 志 (undo 日 志 或 undo/redo 日 志 ), 那么 我 们 可 以 利用 
日 志 来 撤销 中 止 事务 的 影响 。 如 果 脏 数据 的 影响 还 没有 到 达 磁 盘 ， 我 们 也 可 以 使 用 数据 库 的 硬 
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盘 拷 贝 来 恢复 数据 。 这 些 方式 将 在 下 一 节 中 讨论 。 
正如 我 们 已 经 提 到 的 那样 ， 使 用 提交 位 的 基于 时 间 惟 的 调度 器 禁止 可 能 已 读 到 脏 数据 的 事 
务 继续 执行 ， 困 而 使 用 这 样 的 调度 器 时 不 可 能 产生 级 联 回 浴 。 基 于 有 效 性 确认 的 调度 器 也 能 加 
免 级 联 回 滚 ， 因 为 写 数 据 库 (甚至 缓冲 区 ) 只 有 在 确定 事务 将 提交 后 才 发 生 。 
19.1.3 可 恢复 调度 
为 了 使 第 17 章 中 所 讲 的 任何 一 种 记录 日 志 的 方法 都 能 用 于 恢复 ， 那 些 被 认为 是 已 提交 的 事 
务 集合 在 恢复 后 必须 一 致 。 也 就 是 ， 若 T, 在 恢复 后 仍 是 已 提交 的 事务 ， 而 且 T 使 用 了 T: 所 写 的 
值 ， 则 Tz 在 恢复 后 必须 也 是 提交 的 事务 。 因 此 ， 可 给 出 如 下 定义 ， 
* 若 每 个 事务 只 在 改变 其 所 使 用 数据 的 事务 提交 后 才 提 交 ， 则 称 此 调度 是 可 恢复 的 〔 re- 
coverable )。 
19.3 FEKA HABER ERS aA, ERE, Wea SRE, Kosa 
“事务 Ti, 提交” 的 操作 。 可 恢复 调度 : 
Siz wi(A); wi(B); wA); ri(B); ci; c25 
注意 到 丈 读 取 了 万 写 的 一 个 值 (3 )， 所 以 为 了 使 该 调度 是 可 恢复 的 ， 刀 必须 在 六 提 交 后 提交 。 
调度 9 显然 是 串 行 的 〈 因此 是 可 串 的 )， 并 且 是 可 恢复 的 。 但 是 这 两 个 概念 是 矛盾 的 。 侈 
如 ， 下 面 给 出 对 Si 改动 后 的 结果 S:， 这 个 调度 仍 是 可 恢复 的 ， 但 是 不 可 串 行 的 。 
So: WA); wi(B); wi(A); rx(B); ci; c23 
在 5 中， 由 于 对 4 的 写 ， 所 以 串 行 序 中 必须 在 TI 前 ， 然 而 由 于 对 B 的 读 写 又 使 得 串 行 序 中 
了 必须 在 TT 之前。 
最 后 ， 观 察 下 面 对 $ 进 行 变 动 后 的 另 一 个 调度 ， 它 是 可 串 行 的 但 不 是 可 恢复 的 : 
S3: wi(A); wi(B); WA); m(B); c2; ci; 
在 8 中 ，T 在 7 之前， 但 它们 的 提交 操作 顺序 相反 了 。 若 在 故障 发 生前 ， 丈 的 提交 记录 已 
写 回 磁盘 ， 但 妃 的 提交 记录 仍 未 写 回 磁盘 ， 则 不 管 使 用 哪 种 记录 日 志 法 ( 撤销 、 重 做 或 撤销 / 
重 做 法 )，7 将 在 恢复 后 提交 ， 而 TT 就 不 会 。 . 口 


为 了 使 可 恢复 调度 能 根据 任 一 种 记录 日 志 法 都 能 真实 地 被 恢复 ， 必 须 给 出 对 调度 的 一 个 附 

me: 
日 志 提 交 记 录 写 回 磁盘 的 顺序 必须 和 它们 写 顺 序 一 致 。 

考虑 例 19.3 中 的 调度 9. 它 的 提交 记录 以 错误 的 顺序 写 回 磁盘 ， 因 此 不 可 能 会 出 现 一 致 性 
恢复 。19.1.6 节 中 将 进一步 讨论 这 个 规则 。 
19.1.4 避免 级 联 回流 的 调度 

”可 恢复 调度 有 时 需要 级 联 回 滚 。 如 例 19.3 中 的 调度 S;， 若 它 的 前 四 步 操作 完成 后 Ti 不 得 不 
回 滚 ， 则 有 也 要 回 滚 。 因 此 需要 一 个 比 可 恢复 更 强 的 条 件 来 消除 级 联 回 滚 。 这 就 是 ， 

“ 若 调度 中 的 事务 仅仅 读 取 已 提交 事务 所 写 的 值 ， 则 该 调度 避免 了 级 联 回 滚 (或 称 做 “是 

_ ACRIARE” ), 
用 另 一 种 说 法 则 是 ，ACR 调 度 禁 止 读 取胜 数据 。 对 于 可 恢复 调度 ， 假 设 “ 提 交 ” 意 味 着 日 志 的 
提交 记录 已 被 写 回 磁盘 。 

例 19.4 例 19.3 中 的 调度 都 不 是 ACR。 在 每 种 调度 中 ,七 均 从 未 提交 事务 T 中 读 取 5B。 然而， 
考虑 调度 : 

Sa: Wi(A); wi(B); wA); ci; ra(B); c2; 
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EI, TET (最 后 一 个 写 B 的 事务 ) 提交 后 才 读 取 B8， 所 以 Ti 已 提交 ， 并 且 它 的 日 志 已 写 


问 磁盘 。 因 此 调度 $4 是 ACR 调 度 ，; 口 
注意 ,， 像 这 样 读 取 已 提交 事务 TI 所 写 的 值 的 事务 ， 在 Tl 提交 后 7: 一 定 有 显 式 提交 或 是 天 
折 的 结果 。 因 此 : 
。 每 个 ACR 调 度 是 可 恢复 调度 。 
19.1.5 回 滚 的 管理 


将 早先 的 讨论 应 用 于 任 一 种 调度 策略 产生 的 调度 。 在 基于 锁 的 通常 调度 中 ， 有 一 种 简单 的 
方法 可 以 保证 不 产生 级 联 回 滚 : 
“严格 锁 〈 Strict Locking): 事务 不 释放 任 一 排 它 锁 〈 或 其 他 锁 ， 如 增 量 锁 ， 这 种 锁 人 允许 值 
的 改变 )， 除 非 这 个 事务 已 经 提交 或 中 止 ， 而 且 它 的 提交 或 中 止 日 志 记录 已 经 被 写 回 磁盘 。 
满足 严格 锁 规 则 的 事务 调度 被 称 为 严格 调度 (strict schedule )。 这 种 调度 的 两 种 重要 特性 
是 : 
“每 个 严格 调度 是 A4CR 调 度 。 原 因 是 ， 事 务 7 在 Ti 释放 任 一 排他 锁 〈 或 允许 X 被 改变 的 相似 
Bi) 之 前 ， 不 能 读 取 由 五所 写 的 数据 X。 
"每 个 严格 调度 是 可 串 行 的 。 原 因 是 严格 调度 等 价 于 串 行 调度 ， 该 调度 中 的 每 个 事务 都 在 
提交 时 瞬时 运行 。 
根据 上 述 两 点 观察 ， 可 以 画 出 到 目前 为 止 所 提 到 的 不 同调 度 间 的 关系 ， 见 图 19-3。 





图 19-3 调度 类 之 闻 的 包含 与 不 包含 


很 明显 ， 在 严格 调度 中 ， 因 为 未 提交 事务 在 把 数据 写 人 缓冲 器 时 仍 持 有 锁 ， 而 到 提交 时 才 
释放 锁 ， 所 以 事务 不 可 能 会 读 及 数据。 然而 ， 存 在 的 问题 是 ， 当 事务 中 止 时 ， 因 为 要 撤销 这 些 
改变 带 来 的 影响 ， 所 以 要 把 数据 固定 在 缓冲 器 中 。 把 数据 固定 在 缓冲 器 中 的 难度 依赖 于 数据 库 
的 元 素 是 块 还 是 更 小 的 单元 。 下 面 将 依次 对 它们 进行 讨论 。 

块 的 回 滚 

如 果 可 封锁 数据 库 元 素 是 块 ， 那 么 我 们 有 一 种 不 需要 使 用 日 志 的 回 滚 方法 。 假 设 事 务 7 获 
得 块 4 上 的 排他 锁 ， 在 缓冲 区 中 为 4 写 人 新 值 ， 然 后 不 得 不 中 止 。 由 于 4 在 7 写 人 其 值 以 来 一 直 
是 被 锁 住 的， 其 他 事务 都 不 会 读 4。 如 果 遵 循 下 面 的 规则 ， 则 恢复 4 的 旧 值 就 很 简单 : 

* 未 提交 事务 所 写 的 块 被 钉 在 主 存 中 ; 即 不 允许 它们 的 缓冲 区 写 到 磁盘 。 

在 这 种 情况 下 ， 我 们 通过 让 缓冲 区 管理 器 忽略 A 值 来 “ 回 滚 ”T。 也 就 是 说 ，Ah 占 据 的 缓冲 
区 不 写 到 任何 地 方 去 ， 且 该 缓冲 区 被 加 入 可 用 缓冲 区 池 中 。 我 们 可 以 确定 磁盘 上 的 4 值 是 已 提 
交 事 务 最 近 写 人 的 值 ， 这 正 是 我 们 希望 4 具有 的 值 。 

如 果 使 用 18.8.5 节 和 18.8.6 节 的 多 版 本 系统 ， 那 么 我 们 还 有 另 一 种 简单 的 回 滚 方法 。 我 们 必 
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须 再 次 假设 未 提交 事务 所 写 的 块 被 国定 在 主 存 中 。 那 么 ， 我 们 只 要 从 A 的 可 用 值 列 表 中 去 掉 T 
所 写 人 的 值 即 可 。 注 意 ， 由 于 7 是 写 事 务 ， 其 4 值 从 写 人 该 值 那 一 刻 起 到 7 中 止 这 一 段 时 间 内 是 
被 锁 住 的 (假设 使 用 18.8.6 节 的 时 间 蕉 /封锁 方式 )。 

小 的 数据 库 元 素 的 回 滚 

如 果 可 封锁 数据 库 元 素 是 块 的 部 分 ( 例如 元 组 或 对 象 )， 那 么 恢复 被 已 中 止 事 务 修 改过 的 
缓冲 区 的 简单 方法 就 行 不 通 了 。 问 题 在 于 ， 一 个 缓冲 区 中 可 能 包含 两 个 甚至 更 多 事务 修改 过 的 
数据 ; 如 果 其 中 之 一 中 止 ， 我 们 仍然 必须 保留 其 他 事务 所 做 的 修改 。 当 需要 人 恢复 被 已 中 止 事务 
修改 过 的 一 个 小 的 数据 库 元 素 4 的 旧 值 时 ， 我 们 可 以 有 几 种 选择 : . 

1. 我 们 可 以 从 存储 在 磁盘 上 的 数据 库 中 读 取 4 原 来 的 值 ， 并 对 缓冲 区 内 容 做 适当 的 修改 。 

2. 如 果 日 志 是 undo 日 志 或 undo/redo 日 志 ， 那 么 我 们 可 以 从 日 志 中 获得 改 前 值 。 用 于 故障 恢 
复 的 代码 同样 可 用 于 “自动 ” 回 滚 。 

3. 我 们 可 以 为 每 个 事务 所 做 的 修改 维护 一 个 单独 的 主 存 日 志 ， 该 日 志 仅 在 对 应 事务 活跃 时 
保留 。 旧 值 可 以 从 这 一 “日 志 ” 中 获得 。 

这 些 方法 都 不 理想 。 第 一 种 方法 显然 需要 一 次 磁盘 访问 。 第 二 种 ( 查看 日 志 ) 方法 在 相关 
的 日 志 部 分 仍 在 缓冲 区 中 时 可 能 不 需要 访问 磁盘 ， 但 是 ， 这 种 方法 也 可 能 需要 查看 磁盘 上 的 大 
量 日 志 ， 以 找到 给 出 正确 改 前 值 的 更 新 记录 。 最 后 一 种 方法 不 需要 访问 磁盘 ， 但 主 存 “日 志 ” 
可 能 消耗 很 大 一 部 分 主 存 。 

19.1.6 成 组 提交 
在 某 些 情况 下 ， 即 使 不 立即 将 日 志 中 的 提交 记录 刷新 到 磁盘 ， 我 们 也 可 以 避免 读 脏 数据 。 
只 要 按 写 日 志 记 录 的 顺序 刷新 它们 ， 我 们 就 可 以 在 提交 记录 写 到 位 于 缓冲 区 的 日 志 中 以 后 立即 
释放 锁 。 
例 19.5 假设 事务 TI 写 X， 完成， 并 将 其 coMMIT 记 录 写 人 日 志 , 但 日 志 记 录 仍 保留 在 组 


什么 时 候 事 务 真 正 提交 ? 

成 组 提交 的 微妙 之 处 提醒 我 们 ， 已 经 完成 的 事务 在 它 完 成 工作 到 它 真正 “提交 ”之 
间 可 以 有 几 种 不 同 的 状态 ， 所 谓 真 正 提交 是 指 在 任何 情况 下 ( 包括 系统 故障 发 生 时 ) 事 
务 所 产生 的 影响 都 不 会 丢失 。 正 如 我 们 在 第 17 章 提 到 的 那样 ， 事 务 可 能 已 经 完成 工作 ， 
甚至 已 将 COMMITT 记 录 写 到 位 于 主 存 缓冲 区 的 日 志 中 ， 但 当 系 统 发 生 故 障 并 且 COMMIT 记 
录 尚 未 到 达 磁 盘 时 ， 该 事务 所 产生 的 影响 仍 可 能 丢失 。 此 外 ， 我 们 在 17.5 节 中 看 到 ， 即 
使 COMMIT 记 录 已 在 磁盘 上 ， 但 如果 还 没有 转 储 到 备份 中 ， 那 么 介质 故障 仍 可 能 导致 事 
务 被 撤销 且 事务 所 产生 的 影响 丢失 。 

在 没有 故障 发 生 时 ， 各 事务 必然 都 会 从 完成 工作 开始 进一步 推进 ， 直 到 使 自己 产生 

影响 其 至 在 介质 故障 后 也 能 得 到 保留 ， 从 这 一 意义 上 来 说 ， 所 有 的 这 些 状态 都 是 等 价 
的 。 然 而 ， 当 我 们 需要 考虑 故障 和 恢复 时 ， 识 别 这 些 在 无 故障 情况 下 都 可 以 被 非 正规 地 
认为 “已 提交 ”的 状态 之 间 的 差别 是 很 重要 的 。 















冲 区 中 。 虽 然 7 的 提交 记录 能 否 在 崩 演 后 依然 存在 尚未 知晓 ， 且 从 这 种 意义 上 来 说 T 还 没有 提 
交 ， 但 我 们 仍 将 释放 的 锁 。 接 下 来 ，7; 读 X 并 “提交 ”， 但 它 的 提交 记录 也 仍然 保留 在 缓冲 区 
中 ， 并 位 于 用 的 提交 记录 之 后 。 由 于 我 们 按 写 日 志 记录 的 顺序 将 它们 刷新 到 磁盘 ， 依 复 管理 器 
只 有 在 认为 Ti 也 已 经 提交 ( 因为 其 提交 记录 已 到 达 磁 盘 ) 时 才 会 认为 7 已 经 提交 。 因 此 ， 恢 复 
管理 器 可 能 遇 到 三 种 情况 ， 
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1. 7 和 也 的 提交 记录 都 还 没有 到 达 磁 盘 。 那 么 ， 这 两 个 事务 都 被 恢复 管理 器 中 止 ， 而 刀 从 
未 提交 种 务 Ti 读 X 这 件 事 也 是 无 关 紧 要 的 。 

2. TT 提交 而 T; 示 提交。 这 没什么 问题 ， 因 为 : ?没有 从 未 提交 事务 读 X， 而 且 不 管 怎样 它 
中 止 了 ， 因 而 它 不 会 对 数据 库 产生 任何 影响 。 

3. 两 个 事务 都 提交 。 那 么 工读 X 不 是 脏 的 。 

另 一 方面 ， 假 设 包含 也 提交 记录 的 缓冲 区 已 刷新 到 磁盘 ( 例如 ， 由 于 缓冲 区 管理 器 决定 将 
该 缓冲 区 用 于 别 的 目的 ), 但 包含 了 提交 记录 的 缓冲 区 尚未 刷新 到 磁盘 。 如 果 在 这 时 发 生 衣 溃 ， 
那么 在 恢复 管理 器 看 来 TI 未 提交 而 Ts 已 提交 。 了 所 产生 的 影响 将 在 数据 库 中 得 到 永久 的 反映 ， 
但 这 一 影响 建立 在 7 对 X 的 脏 读 上 。 口 


从 例 19.5 可 以 得 到 这 样 的 结论 : 我 们 可 以 在 事务 提交 记录 刷新 到 磁盘 前 释放 锁 。 这 一 策略 
通常 称 为 成 组 提交 ， 它 指 的 是 : 

* 在 事务 完成 且 提 交 日 志 记录 至 少 出 现在 缓冲 区 中 以 前 不 能 释放 锁 。 

“ 日 志 记 录 按 创建 的 顺序 刷新 。 

与 19.1.3 节 所 讨论 的 要 求 “ 可 恢复 调度 ”的 策略 一 样 ， 成 组 提交 保证 从 不 读 脏 数据 。 
19.1.7 逻辑 日 志 

我 们 在 19.1.5 节 中 看 到 ， 如 果 封 锁 的 单位 是 块 或 页 ， 那 么 脏 读 的 修复 比较 容易 。 但 是 ， 当 
数据 库 元 素 是 块 时 至 少 有 两 个 问题 。 l 

1. 所 有 日 志方 式 都 要 求 在 日 志 中 记录 数据 库 元 素 的 新 值 、 旧 值 或 二 者 都 记录 。 如 果 块 中 变 
化 较 小 ， 例 如 改写 一 个 元 组 的 某 个 属性 或 插入 、 删 除 一 个 元 组 ， 那 么 将 有 大 量 的 宛 余 信息 写 人 
日 志 中 。 

2. 要 求 调度 可 恢复 ， 即 只 有 提交 后 才能 释放 锁 ， 这 可 能 严重 抑制 并 发 性 。 例 如 ， 回 忆 一 下 
18.7.1 节 中 对 使 用 B 树 访问 数据 时 提前 释放 锁 的 好 处 所 作 的 讨论 。 如 果 我 们 要 求 事务 占有 锁 直到 
提交 ， 就 得 不 到 这 一 好 处 ， 并 且 实 际 上 在 任何 时 刻 我 们 都 只 允许 一 个 写 事务 访问 B 树 。 

这 些 因素 推动 了 有 多 辑 日 志 的 使 用 。 逻 辑 日 志 中 只 描述 块 中 的 变化 。 根 据 所 发 生变 化 的 性 质 ， 
复杂 程度 也 有 所 不 同 。 . 

1. 数据 库 元 素 的 少量 字 节 改变 ， 例 如 更 新 一 个 定 长 字段 。 这 一 情况 可 以 用 一 种 直截了当 的 
方式 来 处 理 ， 即 我 们 只 记录 改变 的 字 节 及 其 位 置 。 例 19.6 将 说 明 这 一 情况 以 及 合适 的 更 新 记录 
形式 。 

2. 数据 库 元 素 的 改变 描述 简单 ， 易 于 恢复 ， 但 它 产生 的 影响 是 改变 了 该 数据 库 元 素 的 大 多 
数 或 全 部 字 节 。 一 种 常见 的 情况 是 ， 记 录 的 一 个 变 长 字段 改变 ， 该 记录 的 大 部 分 甚至 其 他 记录 
需要 在 块 内 滑动 。 这 种 情况 在 例 19.7 中 讨论 。 块 的 新 值 和 旧 值 看 来 差别 很 大 ， 除 非 我 们 发 现 并 
指明 导致 变化 的 简单 原因 。 

3. 变化 影响 到 数据 库 元 素 的 许多 字 节 ， 且 进一步 的 改变 可 能 使 这 一 变化 变 得 不 可 撤销 。 这 
种 情况 是 真正 的 “逻辑 ”日 志 ， 内 为 我 们 不 能 将 undo/redo 过 程 视 为 发 生 在 数据 库 元 素 上 ， 而 应 
视 为 发 生 在 数据 库 元 素 所 代表 的 高 层 “ 逻 辑 ” 结 构 上 。 在 例 19.8 中 ， 我 们 将 以 B 树 为 例 来 说 明 逻 
辑 日 志 的 这 一 复杂 形式 ，B 树 就 是 一 种 用 磁盘 块 这 样 的 数据 库 元 素 表示 的 逻辑 结构 。 

例 19.6 ”假设 数据 库 元 素 是 块 ， 每 块 中 包含 某 个 关系 的 一 个 元 组 集合 。 我 们 可 以 用 一 个 日 
志 记 录 来 表述 一 个 属性 的 更 新 ， 这 一 日 志 记录 说 明 “ 元 组 的 属性 a 的 值 从 vw 变 到 v,”。 在 块 的 空 
闲 空间 中 持 入 一 个 新 元 组 可 以 表述 为 “具有 值 ( a1/，a,，...，ai ) 的 元 组 被 插入 ， 其 起 始 偏 移 
量 为 p”。 除 非 改 变 的 属性 或 插入 的 元 组 与 块 大 小 相当 ， 和 否则 这 些 记录 占据 的 空间 将 远 远 小 于 整 





7 


个 块 。 此 外 ， 它 们 既 能 服务 于 undo 操 作 ， 又 能 服务 于 redo 棵 作 。 

注意 , 这 些 操作 都 是 寡 等 的 ; 在 块 上 将 这 样 的 一 个 操作 执行 多 次 , 其 效果 等 同 于 执行 一 次 。 
类 似 地 ， 它 们 所 隐 含 的 逆 操 作 ， 妈 将 t[a] 的 值 从 vz 恢复 成 v1 以 及 删除 元 组 :， 也 是 适 等 的 。 因 此 ， 
这 种 类 型 的 记录 在 恢复 中 就 可 以 像 整 个 第 17 章 中 的 更 新 日 志 记 录 那 样 使 用 。 口 


例 19.7 再 次 假设 数据 库 元 素 是 存储 元 组 的 块 ， 但 元 组 中 存在 变 长 字段 。 如 果 像 例 19.6 所 
描述 的 那样 的 改变 发 生 ， 我 们 可 能 需要 移动 块 中 的 大 部 分 东西 ， 以 给 变 长 后 的 字段 腾 出 空间 
或 在 字段 变 短 时 维护 空间 。 在 极端 的 情况 下 ， 可 能 还 必须 创建 溢出 块 (回忆 一 下 12.5 节 ) WA 
纳 原 块 中 的 部 分 内 容 ， 或 由 于 字段 变 短 而 使 我 们 可 以 将 两 块 的 内 容 合 为 一 块 时 ， 我 们 还 可 以 
删除 溢出 块 。 

只 要 块 及 其 溢出 块 被 看 做 是 一 个 数据 库 元 素 ， 使 用 被 改变 字段 的 旧 值 和 /或 新 值 来 撤销 或 
重建 修改 就 比较 容易 。 但 是 ， 块 及 其 溢出 块 必须 看 做 是 在 一 个 “逻辑 ”的 层次 上 容纳 了 某 些 元 
组 。 在 undo 和 redo 后 ， 我 们 甚至 不 能 将 这 些 块 中 的 字 节 恢复 到 原 有 状态 ， 因 为 可 能 由 于 其 他 字 
段 长 度 改 变 而 导致 块 的 重组 。 然 而 ， 如 果 我 们 认为 表示 某 些 元 组 的 块 的 集合 是 数据 库 元 素 ， 那 
么 redo 和 undo 可 以 真正 地 恢复 元 素 的 逻辑 “状态 口 


但 是 ， 正 如 我 们 在 例 19.7 中 提 到 的 那样 ， 通 过 溢出 块 机 制 将 块 当 作 可 扩展 的 来 看 待 有 时 是 
不 可 能 的 。 这 样 ， 我 们 只 能 在 一 个 比 块 高 的 层次 上 执行 ndo 和 tedo 动 作 。 下 一 个 例子 讨论 B 树 
索引 中 块 的 管理 不 允许 溢出 块 这 一 重要 情况 ， 这 时 我 们 必须 认为 undo 和 redo 发 生 在 B 树 自身 这 
一 “逻辑 ”层次 上 而 不 是 发 生 在 块 上 。 

例 19.8 我 们 考虑 为 B 树 结 点 记录 逻辑 日 志 的 问题 。 我 们 并 不 将 整个 结 点 〈 块 ) 的 新 值 和 /或 
旧 值 写 人 日 志 中 ， 而 是 写 人 一 个 描述 变化 的 简短 记录 。 这 样 的 变化 包括 : 

1. 插入 和 删除 子 结 点 的 一 个 键 -指针 对 。 

2. 改变 对 应 于 指针 的 键 值 。 

3. 分 裂 和 合并 结 点 。 

这 些 变化 中 的 每 一 个 都 可 以 用 简短 的 日 志 记录 来 表示 ， 即 使 是 分 裂 操 作 也 只 需要 指明 分 裂 
发 生 在 刀 里 而 新 结 点 又 在 娜 里 。 类 似 地 ， 合 并 只 需要 指明 涉及 的 结 点 ， 因 为 合并 方式 由 所 使 用 
的 B 树 管理 算法 决定 。 

在 满足 可 恢复 调度 的 要 求 时 , 使 用 这 几 类 逻辑 更 新 记录 可 以 比 不 用 的 情况 下 更 早 地 释放 锁 。 
原因 在 于 ， 只 要 事务 只 利用 B 树 来 定位 所 需 访 问 数据 的 位 置 ，B 树 块 的 脏 读 对 读 这 些 块 的 事务 
来 说 就 永远 也 不 是 问题 。 

例如 ,假设 事务 7 读 取 叶 结 点 NW， 但 最 后 写 人 NN 的 事务 U 后 来 却 中 止 了 ，N 上 的 某 些 改变 
(例如 ， 由 于 U 插 入 一 个 元 组 而 导致 Y 中 插入 一 个 新 的 键 -指针 对 ) 需要 撤销 。 如 果 T 也 向 N 中 插 
人 了 键 /指针 对 ， 那 么 N 就 不 可 能 恢复 到 U 修 改 它 以 前 的 状态 。 但 是 ，U 对 于 N 的 影响 可 以 撤销 ; 
在 这 个 例子 中 ,我 们 将 删除 U 插 入 的 键 -指针 对 。 所 得 到 的 NW 与 执行 操作 前 不 一 样 ; 它 已 包含 
由 7 所 进行 的 插入 。 然 而 ， 数 据 库 并 没有 不 一 致 ， 因 为 整个 B 树 仍 只 反映 提交 事务 所 做 的 改变 。 
也 就 是 说 ， 我 们 已 经 在 一 个 逻辑 层次 上 而 不 是 物理 层次 上 恢复 了 B 树 。 口 


19.18 根据 逻辑 日 志 恢 复 

若 逻 辑 操 作 是 等 备 的 ( 即 它们 可 无 损 地 进行 多 次 重复 )， 则 使 用 逻辑 日 志 进 行 恢 复 就 比较 
容易 。 例 如 ， 例 19.6 中 曾 讨论 过 ， 怎 样 用 元 组 和 该 元 组 在 块 中 的 位 置 在 逻辑 日 志 中 表示 一 个 元 
组 的 插入 。 若 在 同一 个 地 方 进 行 至 少 两 次 的 写 元 组 操作 ， 则 结果 同一 次 写 一 样 。 因 此 ， 在 进行 
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恢复 时 ， 若 要 重 做 一 个 插 人 元 组 的 操作 ， 则 可 以 在 适当 的 位 置 重复 执行 插入 适 当 块 的 操作 ， 而 
不 用 担心 元 组 是 否 已 被 插入 。 

相反 地 ， 考 虑 例 19.7 和 例 19.8 中 的 两 种 情况 ， 即 元 组 在 同一 个 块 中 移动 ， 以 及 元 组 在 块 间 
移动 的 情况 。 此 时 并 不 知道 元 组 即将 插入 到 哪个 位 置 ， 能 做 的 最 好 情形 是 在 记录 中 写 人 如 “元 
组 ! 插 和 人 到 块 有 的 某 个 地 方 ” 这 样 的 操作 。 若 在 恢复 时 需 重 做 的 插 人 操作 ， 就 可 以 用 块 B 中 ;的 两 
份 拷贝 完成 。 较 坏 的 情形 是 不 知道 块 B ( 持 有 第 一 个 t 的 拷贝 ) 是 否 已 把 ! 的 拷贝 写 回 磁盘 。 例 
如 ， 正 往 块 8 中 的 另 一 个 数据 库 元 素 执行 写 操作 的 事务 可 能 会 使 8 的 一 个 拷贝 写 回 磁盘 。 

为 了 消除 不 同情 形 〈 如 使 用 逻辑 日 志 进 行 恢复 时 ) 之 间 的 歧义 ， 就 要 使 用 一 种 称 为 多 辑 序 
3-5 (log sequence number ) 的 技术 。 - 
* 每 个 日 志 记 录 的 序列 号 比 之 前 的 日 志 记 录 序列 号 大 。。 因 此 ， 一 个 典型 的 逻辑 记录 的 形 
式 为 <L, T, 4, B>， 其 中 : 
- 工 是 日 志 的 序列 号 ， 为 整 型 。 
- 7 是 相关 事务 。 
-4 是 7 中 的 操作 ， 如 , “插入 元 组 1”。 
-下 是 操作 执行 的 块 。 
“对 于 每 种 操作 ， 都 有 一 个 进行 逻辑 undo 操 作 的 补偿 操作 (compensating action )。 见 例 
19.8， 补 偿 操 作 不 能 把 数据 库 恢复 到 操作 从 未 发 生 过 的 状态 S， 但 它 可 以 把 数据 库 恢 复 到 
逻辑 等 价 于 8 的 状态 。 例 如 ,“ 揪 人 元 组 疡 的 补偿 操作 是 “删除 元 组 P。 
“ 若 一 个 事务 7 中 止 了 ， 则 对 于 7 在 数据 库 上 所 做 的 每 个 操作 都 要 进行 一 次 补偿 ， 事 实 上 ， 
这 个 操作 也 被 记录 在 日 志 中 。 
“每 个 块 的 头 部 都 保存 了 影响 该 块 的 最 后 一 个 操作 的 序列 号 。 
假设 在 故障 后 ， 我 们 需要 使 用 逻辑 日 志 来 进行 恢复 。 下 面 给 出 恢复 的 步 又 。 
1. 第 一 步 是 重建 发 生 故 障 时 数据 库 的 状态 ， 包 括 当前 值 在 缓冲 器 中 但 随后 丢失 了 的 块 。 此 
时 要 做 ; 

(a) 在 日 志 中 寻找 最 近 的 检查 点 ， 由 此 确定 当前 活路 的 事务 集合 。 

(b) 对 于 每 个 日 志 项 <L, T, A, 8>， 比 较 块 B 上 的 日 志 序列 号 N 和 当前 日 志 记录 的 日 志 序列 号 
L。 若 N < 工 ， 则 重 做 操作 4， 此 操作 从 未 在 块 B8 上 执行 过 。 可 是 ， 若 N = L, 则 不 做 任何 事 。 此 
时 ，A 已 对 8B 产生 了 影响 。 

C) 每 个 日 志 项 ( 记录 了 事务 7 开始 执行 、 提 交 或 中 止 等 活动 )， 根 据 这 个 记录 来 调整 相应 
的 活路 事务 集合 。 

2. 当 读 到 日 志 的 尾部 时 ， 必 须 中 止 仍 保持 活跃 的 事务 集合 。 此 时 要 做 : 

(a) 再 次 扫描 日 志 ， 此 时 是 从 尾部 反 向 扫 至 前 一 个 检查 点 。 每 次 遇 到 声明 事务 7 必须 中 目的 

记录 <L, T, A, B> 时 ， 为 4 执行 补偿 操作 ， 并 在 日 志 中 进行 记录 。 

(>) 着 必须 中 止 一 个 在 最 近 检 查 点 之 前 开始 的 事务 ( 也 就 是 ， 这 个 事务 在 检查 点 HITS ERBA 

列 中 )， 则 继续 反 向 扫描 日 志 直 至 找到 所 有 这 样 的 事务 起 始 记录 。 
O 为 每 个 不 得 不 中 止 的 事务 ， 在 日 志 中 写 下 中 止 记 录 。 
19.1.9 习题 
* 习题 19.1.1 考虑 在 如 下 动作 序列 中 插入 ( 像 18.3 节 中 那样 的 单一 类 型 ) 锁 的 所 有 方式 ， 


O 最 终日 志 序列 号 又 会 从 0 开始 ,但 由 于 序列 号 数 非常 大 ， 所 以 不 会 同时 有 两 个 具有 相同 号 的 日 志 记录 。 
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{EBS TE: 
ri(A);ri(B);wi(A);wi(B) 
a) 两 阶段 封锁 且 是 严格 的 。 
b) 两 阶段 封锁 但 不 是 严格 的 。 
习题 19.1.2 ”假设 下 面 的 各 个 动作 序列 后 面 都 跟着 事务 TT 的 中 止 动 作 。 说 明 哪 些 事务 需要 回 
* a) r(A); r2(B); wi(B); wC); ra(B); r3(C); w3(D); 
b) r(A); wi(B); rB); w2(C); ra(O); wa(D); 
c) r(A); r3(A); r(A); wi(B); r2(B); r3(B); w2(C); 73(C); 
d) r2(A); r3(A); r(A); wi(B); 73(B); wa(C); r3(C); 


习题 19.1.3 考虑 习题 19.1.2 中 的 各 个 动作 序列 ， 但 现在 假设 三 个 事务 都 提交 ， 并 在 它们 的 
最 后 一 个 动作 后 立即 将 提交 记录 写 人 日 志 中 。 但 是 ， 骨 省 发 生 了 ， 并 且 在 崩溃 发 生 以 前 日 
志 尾 部 尚未 写 到 磁盘 因而 丢失 。 根 据 丢 失 的 日 志 尾部 的 起 始点 ， 说 明 ， 
a) 哪些 事务 可 以 认为 是 未 提交 的 ? 
b) 在 恢复 过 程 中 是 否 产生 脏 读 ? 如 果 是 ， 哪 些 事务 需要 回 滚 ? 
c) 如 果 委 失 的 日 志 不 是 尾部 ， 而 是 中 间 的 一 部 分 ， 那 么 还 可 能 产生 哪些 脏 读 ? 
习题 19.1.4 考虑 下 面 两 个 事务 : 
Ti: wi(A); wi(B); ri(O); ci; 
T2: WwW2(A); ra(B); w2(C); c2; 
* a) 有 多 少 T 和 7 的 调度 是 可 恢复 的 ? 
b) 在 上 述 可 恢复 调度 中 ， 有 多 少 ACR 调 度 ? 
c) 有 多 少 调度 即 是 可 恢复 ， 又 是 可 串 行 的 ? 
d) 有 多 少 调度 既是 ACR， 又 是 可 串 行 的 ? 
习题 19.1.5 给 出 一 个 ACR 调 度 的 例子 ， 这 个 调度 含有 共享 锁 和 排 它 锁 ， 但 不 是 严格 的 。 


19.2 视图 可 串 行 性 


回忆 一 下 ， 我 们 在 18.1.4 节 中 曾 讨 论 过， 我 们 设计 调度 器 的 真正 目标 是 只 允许 可 串 行 化 的 调 
度 。 我 们 也 看 到 了 事务 对 数据 所 采取 操作 的 不 同 如 何 影响 调度 是 否 可 串 行 化 。 在 18.2 节 中 ， 我 
们 学 习 了 通常 保证 “冲突 可 串 行 性 ”的 调度 器 ， 这 样 的 调度 器 不 管事 务 对 其 数据 做 什么 都 能 保 
TENT BATHE. 

但 是 ， 有 一 些 比 冲突 可 串 行 性 弱 的 条 件 也 能 保证 可 串 行 性 。 在 本 节 中 ， 我 们 将 考虑 这 样 的 
一 个 条 件 ， 它 称 为 “视图 可 串 行 性 ”。 直 观 地 说 ， 视 图 可 串 行 性 考虑 事务 7 和 QU 之 间 所 有 7 写 一 
个 数据 库 元 素 而 又 读 该 元 素 这 样 的 联系 。 视 图 可 串 行 性 与 冲突 可 串 行 性 的 关键 区 别 体现 在 事 
务 7 写 一 个 其 他 事务 都 不 读 的 值 4 ( 因为 另外 的 某 个 事务 后 来 为 4 写 人 了 自己 的 值 ) 时 。 在 这 种 
情况 下 ， 动 作 wr(4) 可 以 放 到 调度 中 另外 的 某 些 (4 类 似 地 也 永 不 会 被 读 到 的 ) 地 方 ， 而 这 在 冲 
突 可 串 行 性 定义 下 是 不 允许 的 。 本 节 中 我 们 将 讨论 视图 可 串 行 性 的 精确 定义 ， 并 给 出 判断 它 的 
一 种 标准 。 

19.2.1 视图 等 价 性 
假设 我 们 有 同一 事务 集合 的 两 个 调度 S$, 和 s,。 假 定 调度 中 任何 事务 读 到 的 每 个 数据 库 元 素 





a 
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都 由 一 个 假想 的 事务 To 写 人 初 值 ， 而 男 一 个 假想 的 事务 T 在 每 个 调度 结束 后 读 取 一 个 和 多 个 事 
务 写 过 的 所 有 数据 库 元 素 。 那 么 ， 对 每 个 调度 中 的 任 一 读 动 作 x; (4)， 我 们 都 可 以 找到 在 它 之 前 
最 靠近 它 的 写 动 作 w (A). RINAT 是 读 动作 rx; (4) 的 源 。 注 意 ， 事 务 T 可 以 是 假想 的 初始 事务 
To, MTE AET o 

对 调度 S, 和 8$ 来 说 ， 如 果 一 个 调度 中 每 个 读 动 作 的 源 与 另 一 调度 中 相同 ， 那 么 我 们 说 8 和 
5 是 视图 等 价 的 。 视 图 等 价 调度 当然 真正 等 价 ; 在 任何 一 个 数据 库 状 态 上 执行 时 ， 它 们 做 的 事 
情 都 一 样 。 如 果 调 度 $ 视 图 等 价 于 一 个 串 行 调度 ， 那 么 我 们 说 8 是 视图 可 串 行 化 的 。 

例 19.9 考虑 调度 S， 其 定义 如 下 : 
Ti: ri(A) wi (B) 
To: r2(B) w2(A) w2(B) 

Ts: rs(A) w3(B) 

注意 ， 为 了 更 好 地 表明 哪个 事务 做 了 什么 ， 我 们 将 各 个 事务 的 动作 垂直 分 开 ; 在 读 调 度 时 仍然 
应 像 往常 一 样 从 左 到 右 。 

ESF, TANSHBARERT; 只 有 T; 所 写 的 8 值 保留 到 调度 结束 时 ， 并 被 假想 事务 7 
“ 读 ” 到 。5 不 是 冲突 可 串 行 化 的 。 要 明白 为 什么 ， 首先 请 注意 在 T, 读 4 前 写 4， 因 此 在 假想 的 
冲突 等 价 串 行 调度 中 ，7; 必 须 位 于 TI 前 。 动 作 w1(B) 在 wa(B) 前 这 一 事实 又 要 求 在 任何 冲突 等 价 
的 串 行 调度 中 Ti 必须 位 于 前 。 实 际 上 ，w1(B) 和 w2(B) 对 数据 库 都 不 产生 长 期 的 影响 。 正 是 这 
种 类 型 的 无 关 写 操作 使 得 在 确定 等 价 串 行 调度 上 的 真正 约束 时 视图 可 串 行 性 能 够 忽略 。 

更 精确 地 讲 ， 我 们 考虑 5 中 所 有 读 动作 的 源 : 

1. rx(8) 的 源 是 T,， 因 为 它 之 前 没有 写 过 B。 

2. m(4) 的 源 是 也， 因为 有 在 此 读 操作 前 最 后 写 4。 

3. 类 似 地 ，rs(4) 的 源 是 T。 

4. 假想 的 工读 4 动作 的 源 是 72。 

5. 假想 的 区 读 8 的 源 是 最 后 写 8 的 事务 7T;。 
当然 ,To 在 任何 调度 中 都 出 现在 所 有 真正 的 事务 前 ， 而 Ty 出 现在 所 有 事务 后 。 如 果 我 们 将 真正 
的 事务 排列 为 (T,，7T!，T)， 那 么 所 有 读 动作 的 源 和 调度 S 相 同 。 也 就 是 说 ，T 读 8 且 显然 是 
前 一 “ 写 事务 "”。 TBA, 但 7 已 写 4， 所 以 x,(4) 的 源 和 Ss 中 一 样 是 T。 荆 也 读 4， 但 由 于 其 前 工 
BA, 所 以 ri(4) 的 源 和 5 中 一 样 是 T2。 最 后 ， BEFIT RAMB, 而 调度 (Th, Ti, T3) 中 4 和 B 
最 后 分 别 由 2 入 写 信 ， 也 和 3S 中 一 样 。 我 们 的 结论 是 ，5 是 一 个 视图 可 串 行 化 的 调度 ， 而 由 顺 
È (h, T, Ts) 表示 的 调度 是 一 个 视图 等 价 的 调度 。 a 


19.2.2 多 重 图 与 视图 可 串 行 性 的 判断 

在 18.2.2 节 中 ， 我 们 曾 用 优先 图 判断 (iest) 冲 突 可 串 行 性 ; 优先 图 的 一 种 推广 形式 能 反映 视 
图 可 串 行 性 定义 所 需 的 所 有 先后 次 序 约束 。 我 们 定义 调度 的 多 重 图 构成 如 下 : 

1. 每 个 事务 对 应 一 个 结 点 再 加 上 对 应 于 假想 事务 To 和 7 的 结 点 。 

2. 对 应 每 个 源 为 7 BITE, n, A-BAT, AIT AM, 

3. 假设 7 是 x:(%) 的 源 ， 而 7 是 另 一 个 写 X 的 事务 。Ti 不 允许 插入 7; 和 TT 之 间 ， 所 以 它 必须 出 
现在 7 前 或 7; 后 。 我 们 用 从 Ti BIT; URAT BT, RAT ( 用 虚线 表示 ) 来 表示 这 种 情况 。 直 观 


日 ”尽管 我 们 在 前 面 没 有 禁止 一 个 事务 两 次 写 同一 元 素 ， 但 事务 通常 没有 必要 这 样 化， 并且 在 这 里 的 讨论 中 需要 
假设 对 给 定 元 素 一 个 事务 只 写 一 次 。 
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地 讲 ， 弧 对 中 的 一 个 或 男 一 个 是 “真实 的 ”"， 但 我 们 并 不 关心 是 哪个 ， 并 且 当 试图 使 多 重 图 无 
环 时 , 我 们 可 以 选择 二 者 中 有 助 于 使 多 重 图 无 环 的 任 一 条 弧 。 但 是 ,在 一 些 重要 的 特殊 情况 下 ， 
PANT AE AL AM : 

(a) MRT ET, AAT AA REM ER ZET, BY, eA; 7, RMT, 

(b) 如 果 7 是 万 ， 那 么 到 不 可 能 出 现在 五 后 ， 因 此 我 们 用 弧 忆 一石 代替 该 弧 对 。 

例 19.10 考虑 例 19.9 中 的 调度 。 我 们 在 图 19-4 中 给 出 了 5 的 多 重 图 开始 时 的 情况 ， 其 中 内 
有 结 点 和 根据 规则 2 所 能 得 到 的 弧 。 我 们 还 指明 了 导致 弧 产 生 的 数据 库 元 素 。 也 就 是 说 ，4 从 了 
FRAT, TANT; , 而 8 从 To 传 到 T、 TFT. 


图 19-4 例 19.10 的 初始 多 重 图 


现在 ， 我 们 必须 考虑 对 这 五 个 联系 中 的 每 一 个 而 言 ， 哪 些 事务 可 能 由 于 在 它们 之 间 写 同一 
元 素 而 产生 干扰 。 这 些 潜在 的 干扰 用 规则 (3 ) 的 弧 对 排除 ， 尽 管 正 如 我 们 将 看 到 的 那样 ， 在 
这 个 例子 中 每 个 弧 对 都 由 于 属于 某 种 特殊 情况 而 变 成 单 弧 。 

考虑 基于 元 素 4 的 弧 T2 一 Ti。 写 4 的 事务 只 有 To 和 T;， 而 它们 都 不 能 到 此 弧 中 间 来 ， 因 为 To。 
不 能 移动 位 置 ， 而 有 已 经 是 弧 的 一 个 端点 ， 因 此 不 需要 附加 其 他 的 弧 。 通 过 类 似 的 推断 ， 我 们 
可 以 知道 ， 使 4 的 写 事务 位 于 弧 7 一 六 和 7 一 六 外 并 不 需要 额外 的 弧 。 

DES TBM, HER, To. T. DMDBSBR. KAZEMO. THATS BW 
事务 ; Tho 和 Ts 也 写 8， 但 正如 我 们 所 看 到 的 那样 ， 弧 端点 不 会 带 来 干扰 ， 所 以 不 必 考 虑 它们 。 由 
于 我 们 不 能 把 刀 团 于 mT 和 刀 之 间 ， 原 则 上 需要 弧 对 (Ti 一 mm，72 一 Ti )。 然 而 ， 任 何事 务 都 不 能 位 
于 To 前 ， 所 以 Ti 一 7 这 一 选项 是 不 可 能 的 。 在 这 种 特殊 情况 下 ， 我 们 可 以 只 在 多 重 图 中 加 入 弧 轧 
一 Ti。 但 因为 4， 该 弧 已 经 存在 ， 所 以 实际 上 要 使 九 位 于 To~*7 外 并 不 需要 对 多 重 图 进行 改变 。 

我 们 也 不 能 把 73 放 在 To 和 7 之 间 。 通 过 类 似 的 推理 ， 我 们 知道 需要 加 入 弧 T 一 7 而 不 是 一 
个 弧 对 。 然 而 ， 这 条 弧 也 已 经 由 于 4 而 存在 于 多 重 图 中 ， 所 以 我 们 不 做 改变 。 

接 下 来 考虑 弧 T 一 Ty 。 由 于 To、7 和 7 是 写 8 的 其 他 事务 ， 我 们 必须 使 它们 都 位 于 此 弧 外 。 
To 不 可 能 移动 到 7 和 Ty 之 间 ， 但 Ti 和 可 以 。 由 于 二 者 都 不 能 移 到 后 ， 所 以 我 们 必须 限制 和 
TT 出 现在 T; 前 。 弧 T=7; 已 经 存在 ， 但 我 们 必须 在 多 重 图 中 加 入 统 T1 一 7T;。 这 是 我 们 必须 加 入 
多 重 图 中 的 惟一 的 弧 ; 该 多 重 图 最 终 的 弧 集合 如 图 19-5 所 示 。 口 


Q CQO 
图 19-5 例 19.10 的 完整 多 重 图 


例 19.11 在 例 19.10 中 ， 所 有 弧 对 都 因为 是 特殊 情况 而 变 成 单 弧 。 图 19-6 是 四 个 事务 构成 
的 一 个 调度 ， 它 是 多 重 图 中 存在 真正 弧 对 的 调度 的 例子 。 

图 19-7 所 示 的 多 重 图 中 只 给 出 了 表示 源 一 污 事 务 联系 的 弧 。 和 图 19-4 中 一 样 ,我 们 标 出 了 
导致 弧 产 生 的 元 素 。 接 下 来 必须 考虑 可 能 添加 弧 的 各 个 方面 。 正 如 在 例 19.10 中 看 到 的 那样 ， 
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| 我 们 可 以 做 一 些 简 化 。 在 避免 对 弧 7 一 7T; 的 干扰 时 ， 所 和 需 考虑 的 事务 T 不 能 出 现在 中 间 的 事 
务 ) 只 有 : 

。 对 导致 弧 T, 一 TT 的 元 素 执 行 写 操作 的 事务 ; 

。 但 不 是 Tn 和 TY， 它们 都 不 可 能 是 T: ; 并 且 

“不 是 7; 和 TT ， 它 们 是 弧 本 身 的 端点 。 





Tı T2 T3 T; 
72(A); 
ri (A); wi (C); 
r3(C); 
w (B); 
ra(B); 
ws3(A); 
ra(C); 
w2(D); r2(B); 
wa(A); walB); 


图 19-6 多 重 图 中 需要 弧 对 的 事务 之 例 


记 住 这 些 规则 ， 我 们 来 考虑 由 于 数据 库 元 素 4 而 产生 的 绝 ， 该 数据 库 元 素 被 T,、 玫 和 工 所 写 。 
我 们 根本 不 需要 考虑 Tu。 TR BED FT. OT, ZA, Ae eM AMT, ; REIS SRM 
M5 — MT; TAR PEPE. BH, TR GES FIO TR To nE, BCR BPH TM 
Ti 一 73 和 72> 一 73。 








图 19-7 例 19.11 的 初始 多 重 图 


现在 ,考虑 Ts 由 于 4 也 不 能 介入 弧 中 这 一 事实 。TT 是 弧 Ts 一 的 一 个 端点 ， 因 此 这 条 弧 是 无 
关 的。 7 不 能 介 于 7 一 也 或 Po 一 7 之 间 ， 这 导致 统一 和 Ts 一 TT 的 产生 。 

我 们 接 下 来 考虑 由 于 8B 而 产生 的 弧 ， 该 数据 库 元 素 被 T。、T, 和 Ts 所 写 。 我 们 仍然 不 需要 考 
处 To。 由 于 8B 而 产生 的 弧 只 有 Ti 一 TT、 TT 和 Ts 一 Ty。 在 前 两 个 中 ，7T 都 不 可 能 介 于 其 间 , 但 
第 三 个 需要 加 入 弧 Ti 一 Ti。 

7 只 可 能 干涉 7 一 7?。 这 条 弧 的 两 个 端点 都 不 是 To 或 7 ， 因 此 它 真 正 需 要 弧 对 ( Ti-*7， 
TT) 在 图 19-8 中 ， 我 们 给 出 了 这 一 必 对 以 及 加 入 的 所 有 其 他 的 弧 。 





图 19-8 例 19.11 的 完整 多 重 图 
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接 下 来 ,我们 考虑 写 C 的 事务 To 和 7T!。 和 前 面 一 样 ，To 不 会 带 来 问题 。 另 外 ，T1 是 每 一 条 由 
C 导 致 的 弧 的 一 部 分 ， 因 此 它 不 可 能 介 于 其 间 。 类 似 地 ，D 只 被 To 和 所 写 ， 因 此 我 们 可 以 断定 
不 再 需 要 更 多 的 弧 。 这 样 ， 最 后 得 到 的 多 重 图 如 图 19-8 所 示 。 口 


19.2.3 视图 可 串 行 性 的 判断 

因为 在 每 个 弧 对 中 我 们 必须 选 一 条 且 只 能 选 一 条 ， 我 们 能 为 调度 5 找到 一 个 等 价 的 串 行 顺 
序 ， 当 且 仅 当 在 每 个 弧 对 中 选 一 个 能 使 8 的 多 重 图 变 成 无 环 图 。 要 明白 原因 ， 请 注意 如 果 存在 
这 样 的 一 个 无 环 图 ， 那 么 该 图 的 任 一 拓扑 排序 中 所 有 写 事务 都 不 会 介 于 读 事务 与 其 源 之 间 ， 并 
且 每 个 写 事务 都 在 它 的 读 事务 之 前 。 因 此 ， 串 行 顺序 中 的 读 事 务 一 源 联系 与 8 中 完全 一 样 ; 这 
两 个 调度 是 视图 等 价 的 ， 因 此 3 是 视图 可 串 行 化 的 。 

反 过 来 ， 如 果 $ 是 视图 可 总 行 化 的 ， 那 么 就 会 有 一 个 视图 等 价 的 串 行 顺序 %'。 对 于 8 的 多 重 
RPA — IR (nT, TT), ES PT, 只 能 出 现在 T 前 或 7; 后 ; 否则 Ti 的 写 将 打破 从 7 
到 7; 的 联系 ， 这 意味 着 S 和 s' 不 是 视图 等 价 的 。 类 似 地 ， 多 重 图 中 的 每 条 弧 在 $' 的 事务 顺序 中 都 
应 得 到 遵循 。 我 们 的 结论 是 ， 从 每 个 弧 对 中 选 出 一 条 弧 ， 那 么 必然 存在 一 种 选择 使 串 行 调度 9 
与 这 种 选择 所 产生 的 图 中 的 所 有 弧 都 一 致 。 因 此 ， 这 个 图 是 无 环 的 。 

例 19.12 考虑 图 19-5 中 的 多 重 图 。 它 已 经 是 一 个 图 并 且 是 无 环 的 。 惟 一 的 拓扑 顺序 是 ( 7， 
Ti，7; )， 因 此 这 就 是 例 19.10 中 调度 的 一 个 视图 等 价 串 行 顺序 。 

现在 考虑 图 19-8 中 的 多 重 图 。 我 们 必须 考虑 其 中 弧 对 的 每 一 种 选择 。 如 果 我 们 选择 Ts 一 Ti， 
那么 图 中 有 环 。 但 是 ， 如 果 我 们 选择 7,T,， 那 么 产生 的 将 是 一 个 无 环 图 。 该 图 惟一 的 拓扑 顺 
序 是 (Ti, Ta, Ts, Ts )。 这 一 顺序 产生 了 一 个 视图 等 价 的 串 行 顺序 ， 并 且 表 明 原 来 的 调度 是 视 
图 可 串 行 化 的 。 口 
19.2.4 习题 

习题 19.2.1 为 下 列 调度 画 出 多 重 图 ， 并 找 出 所 有 视图 等 价 串 行 顺序 : 


* a) ri(A); r2(A); r3(A); wi (B); wa(B); wa(B); 
b) ri(A); r2(A); r3(A); ra(A); wi (B); w2(B); w3(B); w4 (B); 
c) (A); ra(D); wi (B); r2(B); ws(B); r4(B); we(C); rs (C); w (E); r5(E); 


ws( 


d) wi(A); r2(A); wa(A); ra(A); ws(A); re(A); 


! 习题 19.2.2 下面 是 一 些 串 行 调度 。 说 明 有 多 少 调度 是 : (i ) 冲突 等 价 (二 ) 视图 等 价 于 这 
些 串 行 调度 。 
* a) r(A); wi(B); r(A); w2(B); rA); w3(B); 即 三 个 事务 都 读 A， 然 后 写 B。 
b) 1(4); wi(B); wi(C); rx(4); wB); wC); 即 两 个 事务 都 读 4， 然 后 写 B 和 C。 


19.3 死 锁 处 理 


我 们 已 经 几 次 发 现 并 发 执行 的 事务 由 于 竞争 资源 而 到 达 一 个 存在 死 锁 的 状态 .若干 事务 中 
的 每 一 个 都 在 等 待 被 其 他 事务 占有 的 资源 ， 因 而 每 个 事务 都 不 能 取得 进展 。 

“ 即使 是 两 阶段 封锁 事务 的 普通 操作 也 可 以 导致 死 锁 ， 在 18.3.4 节 中 我 们 看 到 了 这 是 怎样 发 

生 的 ， 其 原因 在 于 一 个 事务 封锁 了 另 一 事务 也 需要 封锁 的 东西 。 

"将 锁 从 共享 升级 为 排他 的 能 力 可 能 导致 死 锁 ， 在 18.4.3 节 中 我 们 看 到 了 这 是 怎样 发 生 的 ， 
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其 原因 在 于 每 个 事务 在 同一 元 素 上 持 有 共享 锁 ， 并 且 希 望 将 锁 升 级 。 

处 理 死 锁 的 方法 大 致 分 为 两 种 。 我 们 可 以 检测 死 锁 并 进行 修复 ， 也 可 以 对 事务 进行 管理 ， 
使 死 锁 永远 都 不 可 能 形成 。 
19.3.1 超时 死 锁 检测 

当 存 在 死 锁 时 ， 对 该 状态 进行 修复 以 使 所 有 涉及 的 事务 都 能 继续 执行 通常 是 不 可 能 的 。 因 
此 ， 至 少 一 个 事务 必须 回 滚 一 终止 并 重新 开始 。 

检测 并 解决 死 锁 最 简单 的 方法 是 利用 超时 。 对 事务 活跃 的 时 间 做 出 限制 ， 如 果 事 务 超过 这 
个 时 间 就 将 其 回 滚 。 例 如 ， 在 一 个 典型 事务 执行 时 间 为 几 毫 秒 的 简单 事务 系统 中 ， 以 一 分 钟 为 
超时 时 间 只 会 影响 到 陷于 死 锁 中 的 事务 。 但 是 ， 如 果 有 的 事务 比较 复杂 ， 我 们 可 能 希望 超时 时 
间 间 隔 更 长 一 些 。 

注意 ， 当 死 锁 涉 及 的 一 个 事务 超时 后 ， 该 事务 将 释放 锁 和 其 他 资源 。 因 此 ， 死 锁 涉 及 的 其 
他 事务 有 可 能 在 到 达 超 时 限制 前 完成 。 然 而 ， 由 于 死 锁 涉 及 的 事务 可 能 几乎 在 同一 时 间 开始 
( 否则 ， 一 个 事务 可 能 在 另 一 事务 开始 前 已 经 完成 )， 不 再 陷于 死 锁 中 的 事务 假 超时 也 是 可 能 
发 生 的 。 
19.3.2 等 待 图 

由 于 事务 等 待 另 一 事务 持 有 的 锁 而 导致 的 死 锁 问题 可 以 用 等 待 图 来 解决 ， 等 待 图 表明 哪些 
事务 在 等 竺 其 他 事务 持 有 的 锁 。 这 种 图 可 以 用 来 在 死 锁 形成 后 检测 死 锁 ， 也 可 以 用 来 预防 死 
锁 的 形成 。 我 们 假设 是 后 一 种 ， 在 任何 时 候 我 们 都 需要 维护 等 待 图 ， 并 拒绝 将 在 图 中 产生 环 
的 动作 。 

回忆 一 下 ， 在 18.5.2 节 中 ， 锁 表 为 每 个 数据 库 元 素 X 维 护 等 待 X 上 的 锁 以 及 当前 持 有 X 上 的 
锁 的 事务 列表 。 等 待 图 中 对 应 当前 持 有 锁 和 等 待 锁 的 每 个 事务 有 一 个 结 点 。 对 于 结 点 ( 事务 ) 
7T 和 结 点 VU， 如 果 存 在 某 个 数据 库 元 素 使 : 

1. U 持 有 A 上 的 一 个 锁 ; 

2. 7 等 待 4 上 的 一 个 锁 ; 并 且 

3. 除非 U 先 释放 它 在 4 上 持 有 的 锁 ， 否 则 7 不 能 获得 所 需 封锁 方式 的 锁 ; © 

如 果 在 等 待 图 中 无 环 ， 那 么 每 个 事务 最 终 都 能 完成 。 至 少 有 一 个 事务 不 在 等 待 其 他 事务 ， 
该 事务 肯定 能 完成 。 这 时 ， 至 少 有 另 一 个 事务 不 在 等 待 ， 这 个 事务 又 能 完成 ; 依 此 类 推 。 

然而 ， 如 果 图 中 有 环 ， 那 么 环 中 的 任何 事务 都 不 能 取得 进展 ， 因 此 存在 死 锁 。 这 时 ， 避 人 免 
死 锁 的 一 种 策略 是 回 滚 所 提请 求 将 导致 等 待 图 中 出 现 环 的 任 一 事务 。 

例 19.13 假设 我 们 有 下 面 的 四 个 事务 ， 每 个 事务 都 读 一 个 元 素 和 写 另 一 元 素 : 


Ti: (A); rı(4); lı (B); wi(B); wi(A); u1(B); 
Te: l2(C); r2(C); f(A); wa( A); u2(C); u2(A); 
Ts: 13(B); r3(B); ls(C); w3(C); us(B); us(C); 
Ta: l4(D); ra(D); la(A); wa(A); wa(D); ug (A); 


我 们 使 用 一 个 只 有 一 种 封锁 方式 的 简单 封锁 系统 ， 实 际 上 ， 如 果 使 用 共享 /排他 系统 ， 并 


用 合适 的 方式 封锁 ， 即 读 时 使 用 共享 锁 而 写 时 使 用 排他 锁 ， 我 们 也 会 发 现 同样 的 效果 。 


O 通常 情况 下 ， 例 如 在 共享 锁 和 排他 锁 的 情况 下 ， 每 个 等 待 的 事务 都 必须 等 到 当前 的 所 有 锁 持 有 者 释放 其 锁 。 
但 在 某 些 封锁 方式 的 系统 中 ， 事 务 可 以 在 某 个 当前 被 持 有 的 锁 释放 后 就 能 获得 其 锁 ， 见 习题 19.3.6。 
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图 19-9 中 是 这 四 个 事务 的 一 个 调度 最 开始 的 部 分 。 在 前 四 步 中 ， 每 个 事务 都 获得 了 该 事务 
要 读 的 元 素 上 的 锁 。 在 第 5 步 ， 丈 试图 封锁 4， 但 由 于 刀 已 持 有 4 上 的 锁 ， 所 以 这 一 请 求 被 拒绝 。 
因此 ， 胞 等 待 九 ， 我 们 画 一 条 从 刀 的 结 点 到 九 的 结 点 的 弧 。 
Tı To Ts 
1) (A); 71 (A); 


l(C); ra(C); 
I3(B); r3(B); 


la(D); ra(D); 


L(A); 被 拒绝 
la(C); 被 拒绝 
L(A); 被 拒绝 





图 19-9 一 个 有 死 锁 的 调度 的 开始 部 分 


类 伏地， 在 第 6 步 ，7 对 C 的 封锁 请 求 由 于 到 而 被 拒绝 ;在 第 7 步 ， 刀 对 4 的 封锁 请 求 由 于 了 
而 被 拒绝 。 这 时 的 等 待 图 如 图 19-10 所 示 ， 此 图 中 无 环 。 
在 第 8 步 ，7 必 须 等 待 T, 在 B 上 持 有 的 锁 。 如 果 我 们 允许 7 等 待 ， 那 么 等 待 图 中 将 有 一 个 包 
含 T、 歼 和 的 环 ， 如 图 19-11 所 示 。 由 于 它们 各 自 都 等 待 另 一 事务 完成 ， 它 们 都 不 能 取得 进展 ， [i011 
因此 存在 涉及 这 三 个 事务 的 死 锁 。Ts 碰 巧 也 不 能 完成 ， 尽 管 它 不 在 环 中 ， 但 它 的 进展 依赖 于 工 
所 取得 的 进展 。 


图 19-11 有 环 的 等 待 图 ， 该 环 由 
图 19-9 中 第 8 步 导致 


既然 我 们 需要 回 液 导致 环 的 任 一 事务 ，7 必 须 回 深 ， 所 O) 
产生 的 等 待 图 如 图 19-12 所 示 。 刀 放弃 自己 在 4 上 锁 ， 该 锁 可 
以 给 区 或 T,。 假 设 给 T,， 那 么 TT 可 以 完成 ,然后 二 释放 自己 
在 4 和 C 上 的 锁 。 现在 需要 封锁 C 的 7 和 需要 封锁 4 的 7 都 可 
以 完成 。 在 某 个 时 候 ，T 重 新 开始 ， 但 在 T,、T; 和 二 完成 以 @) ~@) 
前 它 不 能 获得 4 和 8B 上 的 锁 。 口 图 19-12 TAS OS 


19.3.3 通过 元 素 排 序 预 防 死 锁 
现在 ,我 们 考虑 预防 死 锁 的 几 种 其 他 的 方法 。 第 一 种 方法 需要 我 们 将 数据 库 元 素 按 某 种 任 
意 但 固定 的 顺序 排列 。 例 如 ， 如 果 数 据 库 元 素 是 块 ， 我 们 可 以 将 它们 按 物 理 地 址 的 字典 顺序 排 
列 。 回 忆 一 下 ,在 8.3.4 节 中 ， 块 的 物理 地 址 通常 用 描述 块 在 存储 系统 中 位 置 的 一 系列 字 节 表示 。 
如 果 每 个 事务 申请 元 素 上 的 锁 都 必须 按 顺 序 ( 一 个 在 大 多 数 应 用 中 都 不 太 现实 的 条 件 )， 
那么 就 不 会 由 于 事务 等 待 锁 而 导致 死 锁 。 为 了 证 明 这 一 点 ,假设 7 等 待 T 在 41 上 持 有 的 锁 ; T 
等 待 T 在 4, 上 持 有 的 锁 ; 依 此 类 推 ; MT ESET EA ,上 持 有 的 锁 ; FRAT ERAT, TA, E 


图 19-10 图 19-9 中 第 7 步 后 的 等 待 图 





646 B19 





持 有 的 锁 。 由 于 Z 持 有 A 上 的 锁 而 又 等 待 41， 在 元 素 的 顺序 中 必然 有 A; < 41。 类 似 地 ， 对 i = 
3,4,…,n， 有 Ai; < Ai -1。 但 是 ， 由 于 Ti 持 有 A1 上 的 锁 而 又 等 待 4;,， 这 说 明 h! < A, 。 我 们 现在 有 
Al<As<Ahi-1<…< A;<A1， 这 是 不 可 能 的 ， 因 为 这 蕴含 着 4A1 < 4i。 

例 19.14 ”我 们 假设 元 素 按 字母 顺序 排列 。 那 么 ， 如 果 例 19.13 中 的 四 个 事务 要 按 字母 顺序 
封锁 元 素 ， 则 和 需要 重 写 ， 把 封锁 元 素 的 顺序 反 过 来 。 因 此 ， 这 四 个 事务 现在 是 : 


Ti: L(A); ri(A); 1(B); wi(B); wi(A); ui (B); 

Tz: La(A); l2(C); r2(C); wa (A); u2(C); wu2 (A); 

Ts: I3(B); 73(B); I3(C); w3(C); u3(B); u3(C); 
a( 


Ta: L(A); la(D); ra(D); wa(A); ua(D); u4(A); 


图 19-13 给 出 了 执行 时 机 与 图 19-9 相 同时 这 些 事务 的 执行 情况 。 刀 开始 并 获得 4 上 的 锁 。7 
接着 开始 并 试图 获得 4 上 的 锁 ， 但 必须 等 待 T,。 然 后 ，T 开 始 并 获得 8 上 的 锁 ， 但 7 不 能 开始 ， 
它 也 需要 A 上 的 锁 ， 因 此 它 必须 等 待 。 

Tı Te Ts 


L(A); ri (4); 
lo(A); 被 拒绝 








13(B); r3(B); 


I3(C); ws(O); 
us(B); u3(C); 
£(B); wi(B); 
u (A); uy (B) 
1,(A); (CC); 
har we(A); 
u2(A); u2(C); 


eS TSS 


1 
2 
3 
4 
5 
6 
7 
8 


14(A); l4(D); 
r4(D); wa(A); 
u4(A); t(D); 


图 19-13 按 字母 顺序 封锁 元 素 可 预防 死 锁 


由 于 7 停顿 ， 不 能 继续 执行 下 去 ， 而 按照 图 19-9 中 的 顺序 ， 接 下 来 是 六 。 思 可 以 获得 C 上 的 

锁 ， 然 后 它 在 第 6 步 完 成 。 现 在 ， 由 于 7 在 38 和 C 上 的 锁 释 放 ， 刀 在 第 8 步 得 以 完成 。 这 时 ，4 上 
的 锁 成 为 可 获得 的 ， 而 我 们 假定 按 先 来 先 服务 的 原则 将 此 锁 给 7。 那么 ，T 获 得 它 所 需要 的 两 

个 锁 ， 并 在 第 11 步 完成 。 最 后 ，T 获 得 其 锁 并 完成 。 E 


19.3.4 MHARE 

正如 在 19.3.2 节 讨论 的 那样 ， 我 们 可 以 通过 维护 等 待 图 来 检测 死 锁 。 然 而 ， 等 待 图 可 能 很 
大 ， 而 每 次 事务 需要 等 待 锁 时 分 析 等 待 图 看 是 否 有 环 可 能 很 耗 时 。 维 护 等 待 图 的 另 一 种 可 选 方 
案 是 将 每 个 事务 与 一 个 时 间 惟 关联 起 来 。 该 时 间 戳 ， 

“ 只 用 于 死 锁 检测 ; 它 和 18.8 节 中 用 于 并 发 控制 的 时 间 戳 不同， 即使 使 用 基于 时 间 蕉 的 并 

发 控制 机 制 。 

" 特别 地 ， 如 果 事 务 回 滚 ， 那 么 它 以 一 个 新 的 、 较 晚 的 并 发 时 间 改 重新 开始 ， 但 其 用 于 死 

锁 检测 的 时 间 玲 从 不 改变 。 

时 间 稚 在 事务 7 必须 等 待 另 一 事务 U 持 有 的 锁 时 使 用 。 根 据 是 7 还 是 U 更 老 一 些 ( 时 间 惟 更 
早 )， 可 能 发 生 两 种 不 同 的 情况 。 两 种 不 同 的 策略 可 以 用 于 管理 事务 和 检测 死 锁 。 
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1. 等 待 -死亡 方案 : 

(a) WRTHUS ( 即 7 的 时 间 戳 比 忆 的 时 间 惟 小 )， 那 么 允许 T 等 待 U 持 有 的 锁 
(b) 如 果 U 比 T 老 ， 那 么 T“ 死 亡 ”; THAR. 

2. 伤害 -等 待 方案 : 

(a) 如 果 T 比 U 老 ， 它 将 “伤害 ”U; 这 样 的 伤害 通常 是 致命 的 ，U 必 须 回 深 并 放弃 T 需 要 
从 UU 得 到 的 所 有 锁 。 一 个 例外 是 在 “伤害 ”生效 前 U 已 经 完成 并 释放 自己 的 锁 。 在 这 
种 情况 下 ，U 得 以 存活 并 且 不 需要 回 深 。 

(b) 如 果 U 比 T 老 ， 那 么 7 等 待 U 持 有 的 锁 。 

例 19.15 ”以 例 19.14 中 的 事务 为 例 ， 我 们 来 考虑 等 待 -死亡 方案 。 我 们 将 假设 T!、T2、 荆 、 
Ts 是 时 间 的 顺序 ; 即 T 是 最 老 的 事务 。 我 们 还 假设 当 事 务 回 滚 时 ,该 事务 的 重新 启动 不 会 很 快 ， 
不 会 在 其 他 事务 完成 前 变 得 活跃 。 

图 19-14 给 出 了 等 待 -死亡 方案 下 一 个 可 能 的 动作 序列 。T 首 先 获得 4 上 的 锁 。 当 元 请 求 4 上 
KBIRT, TIE, BANET Æ. EBS, TRB LOM, (FEET RAL, AF 
A 上 锁 的 持 有 者 TI 比 Ts 老 ， 因 而 Ts 死亡 。 接 下 来 ，T; 获 得 C 上 的 锁 并 完成 。 当 TI 继续 时 ， 它 发 现 
B 上 的 锁 可 以 获得 ， 因 而 也 在 第 8 步 完 成 。 


Ti T T3 
L(A); r(A); 
L(A); 死亡 


43(B); r3(B); 

14(A); 死亡 
ls(C); w3(C); 
us3(B); ua(C); 


I4(A); (D) 
72(4); 等 待 
r4(D); wa(A); 
u4(A); ua(D); 
1,(A); lo(C); 
r2(C); we(A); 
u2(A); ue(C); 


图 19-14 用 等 待 -死亡 方案 检测 死 锁 的 事务 动作 





基于 时 间 戳 的 死 锁 检测 发 挥 作用 的 原因 
我 们 断言 在 等 待 -死亡 方案 和 伤害 -等 待 方案 下 等 待 图 中 都 不 会 出 现 环 ， 因 而 不 存在 死 
锁 。 假 设 不 是 这 样 ; 即 存 在 环 ， 例 如 TI 一 Ty 一 Ty 一 TI。 有 一 个 事务 最 老 ， 假 设 是 T,。 


在 等 待 -死亡 方案 中 只 会 等 待 比较 新 的 事务 。 因 此 ， 刀 不 可 能 等 待 思 ， 因 为 也 肯定 7 
老 。 在 伤害 -等 待 方案 中 只 会 等 待 比较 老 的 事务 。 因 此 ， 工 不 可 能 等 待 比较 新 的 T。 我 们 
断定 环 不 可 能 存在 ， 因 此 不 存在 死 锁 。 





现在 ， 回 滚 的 两 个 事务 7 和 Ts 重新 开始 。 就 死 锁 而 言 ， 它 们 的 时 间 惟 不 变 ， TART. 
但 是 ， 我 们 假设 在 第 9 步 Ts 首先 重启 ， 因 此 在 第 10 步 当 7 请 求 4 上 的 锁 时 ，T 被 迫 等 待 但 不 必 中 
止 。7 在 第 12 步 完成 ， 然 后 7 得 以 运行 至 结束 ， 正 如 最 后 三 步 所 给 出 的 那样 。 口 


例 19.16 下面， 我 们 考虑 同样 的 事务 在 伤害 -等 待 策略 下 的 运行 ， 如 图 19%-15 所 示 。 和 图 
19-14 中 一 样 ， 刀 首先 封锁 4。 当 第 2 步 中 刀 请 求 4 上 的 锁 时 ， 它 需要 等 待 ， 因 为 也 比 7 老 。 在 第 3 
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步 T ;获得 在 B 上 的 锁 后 ，7T: 也 不 得 不 等 竺 4 上 的 锁 。 


Ts 





l3(B); r3(B); 


) 
1, (B); w (B); 被 伤害 
u: (A); (B): 
l2(A); l2(C); 
r2(C); w2(A); 
u2(A); u2(C); 
I4(A); la(D); 
r4(D); wa(A); 
ua(A); ua(D); 
(B); r3(B); 
I3(C); w3(C); 
us (B); us(C); 


图 19-15 用 伤害 -等 待 方案 检测 死 锁 的 事务 动作 


接着 ,假设 7 继续 执行 并 在 第 5 步 请 求 8 上 的 锁 。 该 锁 已 被 7; 持 有 ， 但 Ti 比 T; 老 。 因 此 ,也 
“伤害 ”Ts。 由 于 尚未 完成 ， 这 一 伤害 是 致命 的 ，T 放 弃 自 己 的 锁 并 回 滚 。 因 此 ， 工 得 以 完成 。 
当 刀 使 4 上 的 锁 可 用 后 ， 假 设 该 锁 被 冯 得 到 ， 这 样 7 就 能 够 继续 执行 。 在 7 后 ， 该 锁 被 也 获 
得 ，7 继 续 执行 至 完成 。 最 后 ， 有 重启 并 在 不 受 干扰 的 情况 下 完成 。 口 


19.3.5 死 锁 管理 方法 的 比较 

在 等 待 -死亡 方案 和 伤害 -等 待 方案 中 ， 较 老 的 事务 消灭 较 新 的 事务 。 由 于 事务 以 旧时 间 稚 
重启 ， 最 终 每 个 事务 都 将 变 成 系统 中 最 老 的 事务 而 必然 能 完成 。 每 个 事务 最 终 都 能 完成 的 这 一 
保证 称 为 无 饭 死 。 注 意 ， 本 节 描述 的 其 他 方法 不 一 定 能 防止 饿 死 ， 如 果 不 采 取 额 外 的 措施 ， 事 
务 可 能 不 断 重 启 ， 陷 人 死 锁 ， 然 后 回 滚 。 参 见习 题 19.3.7。 

然而 ， 等 待 -死亡 方案 和 伤害 -等 待 方案 的 行为 有 着 细微 的 差别 。 在 伤害 -等 待 中 ， 只 要 老 事 
务 请 求 较 新 的 事务 持 有 的 锁 ， 较 新 的 事务 就 被 杀 死 。 如 果 我 们 假设 事务 在 开始 后 较 近 的 时 间 内 
获得 锁 ， 那 么 老 事务 抢夺 新 事务 持 有 的 锁 的 情况 就 很 少 发 生 。 因 此 ， 我 们 可 以 预见 在 伤害 -等 
待 中 回 滚 比较 少见 。 

另 一 方面 ， 当 回 滚 发 生 时 ， 等 待 -死亡 回 滚 仍 处 于 获得 锁 这 一 阶段 的 事务 ， 这 一 阶段 被 假 
定 是 事务 中 最 早 的 阶段 。 因 此 ， 尽 管 等 待 -死亡 可 能 比 伤害 -等 待 回 滚 的 事务 多 ， 这 些 事务 常常 
只 做 了 极 少 的 工作 。 与 此 相 比 ， 当 伤害 -等 待 回 滚 事务 时 ， 该 事务 可 能 已 经 获得 自己 的 锁 ， 并 
且 它 的 活动 可 能 已 经 占用 了 大 量 的 处 理 器 时 间 。 因 此 ， 根 据 处 理事 务 的 数量 不 同 ， 两 种 方案 都 
可 能 浪费 更 多 的 工作 。 

我 们 还 应 该 比较 等 待 -死亡 和 伤害 -等 待 与 直接 构造 和 使 用 等 待 图 的 优 缺 点 。 最 重要 的 几 
点 为 : 

* 等 待 -死亡 和 伤害 -等 待 的 实现 都 比 维护 或 周期 性 构造 等 待 图 更 容易 。 当 数据 库 是 分 布 式 

数据 库 时 ， 构 造 等 待 图 的 缺点 更 加 显著 ， 这 时 等 待 图 必须 通过 各 个 节点 上 的 锁 表 集 合 来 

构造 。 参 见 19.6 节 的 讨论 。 

“使 用 等 待 图 能 使 由 于 死 锁 而 必须 中 止 事务 的 次 数 最 少 。 除 非 真 的 存在 死 锁 ， 否 则 我 们 绝 

不 会 中 止 事 务 。 另 一 方面 ， 等 待 -死亡 和 伤害 -等 待 偶尔 都 会 在 并 不 存在 死 锁 的 情况 下 回 

滚 事务 ， 而 这 时 如 果 该 事务 不 被 杀 死 ， 死 锁 也 不 会 发 生 。 
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1936 习题 
习题 19.3.1 ”在 下 面 的 每 个 动作 序列 中 ， 假 设 共享 锁 恰 好 在 每 个 读 动作 前 申请 ， 而 排他 锁 
恰好 在 每 个 写 动作 前 申请 。 此 外 ， 解 锁 恰 好 发 生 在 事务 执行 的 最 后 一 个 动作 后 。 说 明 哪些 
动作 被 拒绝 以 及 是 否 有 死 锁 发 生 ， 并 说 明 在 动作 执行 过 程 中 等 待 图 怎样 演变 。 如 果 存 在 死 
锁 ， 则 选择 一 个 事务 并 将 其 中 止 ， 说 明 动 作 序 列 将 怎样 继续 下 去 。 


); r2(B); 

); r2(B); 

); r2(B); r3(C); un (B); wa (OC); ws(A); 

4); r2(B); w (C); we(D); r3(C); wi(B); wa(D); we(A); 


* a wi(C); r3(D); ra(E); w3(B); we(C); wa(A); wi (D); 


) r(A 

) r(A r3(C); wı (B); wa(C); w3(D); 

c) r(A 

d) ri( 

习题 19.3.2 ”对 习题 19.3.1 中 的 每 个 动作 序列 ， 说 明 在 伤害 -等 待 死 锁 避 免 系统 下 将 会 发 生 

什么 。 假 设 死 锁 时 间 礁 的 顺序 与 事务 下 标 相同 ， 即 7,、T,、 和 T。 还 假设 事务 的 重启 按 

照 这 些 事务 回 滚 的 顺序 来 进行 

习题 19.3.3 对 习题 19.3.1 中 的 每 个 动作 序列 ， 说 明 在 等 竺 .死亡 死 锁 避 免 系统 下 将 会 发 生 

什么 。 所 做 假设 同 习题 19.3.2。 

习题 19.3.4 对 任意 整数 上 > 1， 是 否 存在 这 样 的 等 竺 图， 其 中 有 一 个 长 度 为 mx 的 环 却 没有 更 

小 的 环 ? 当 n = 1 时 即 一 个 结 点 上 的 环 时 又 怎样 ? 

! 习题 19.3.5 ”避免 死 锁 的 一 种 方法 是 要 求 每 个 事务 在 开始 时 声明 自己 需要 的 所 有 锁 ， 然 后 

或 者 授予 该 事务 需要 的 所 有 锁 ， 或 者 都 不 授予 而 让 该 事务 等 待 。 这 种 方式 能 避免 由 于 封锁 

造成 的 死 锁 吗 ? 如 果 能 ， 解 释 原因 ; 如 果 不 能 ， 举 出 一 个 可 能 发 生死 锁 的 例子 。 

习题 19.3.6 ”考虑 18.6 节 的 意向 锁 系统 。 描 述 如 何 为 这 种 封锁 方式 的 系统 构造 等 待 图 。 特 

别 地 ,请 考虑 数据 库 元 素 4 被 不 同事 务 以 S 和 JX 方式 封锁 这 种 可 能 性 。 如 果 一 个 对 A 封锁 的 

请 求 需要 等 待 ， 那 么 我 们 应 该 画 什么 弧 ? 

! 习题 19.3.7 在 19.3.5 节 中 ， 我 们 指出 伤害 -等 待 和 等 待 -死亡 以 外 的 死 锁 检测 方法 不 一 定 能 
防止 饿 死 ， 即 事务 可 能 重复 回 滚 而 永远 不 能 完成 。 举 例 说 明 ， 如 果 使 用 的 策略 是 回 滚 任 一 
可 能 导致 环 的 事务 ， 这 将 怎样 导致 俄 死 。 要 求 事务 以 固定 的 顺序 申请 元 素 上 的 锁 一 定 能 防 
ERIE? 超时 这 一 死 锁 处 理 机 制 又 怎样 呢 ? 


19.4 分 布 式 数 据 库 


我 们 现在 来 考虑 分 布 式 数据 库 系统 的 要 素 。 在 分 布 式 系 统 中 ， 许 多 相对 自治 的 处 理 器 可 能 
参与 数据 库 操作 。 分 布 式 数据 库 能 提供 若干 机 会 : 

1. 由 于 在 处 理 一 个 问题 时 可 以 使 用 许多 机 器 ， 并 行 以 及 加 快 查询 反应 速度 的 可 能 性 增 大 。 

2. 由 于 数据 可 以 在 多 个 节点 上 存在 副本 ， 系 统 可 能 不 会 仅仅 由 于 一 个 节点 或 部 件 发 生 故 障 
而 不 得 不 停止 处 理 。 

另 一 方面 ， 分 布 式 处 理 增加 了 数据 库 系统 各 个 方面 的 复杂 性 ， 因 此 ， 即 使 是 DBMS 中 最 基 
本 的 组 成 部 分 的 设计 ， 我 们 也 需要 重新 考虑 。 在 许多 分 布 式 环境 中 ， 通 信 开 销 可 能 远大 于 处 理 
开销 ， 因 此 关键 的 问题 是 消息 如 何 传送 。 这 一 节 我 们 将 引入 最 基本 的 问题 ， 而 后 面 几 节 主 要 讨 
论 分 布 式 数据 库 中 出 现 的 两 大 问题 : 分 布 式 提交 和 分 布 式 封锁 。 
19.4.1 数据 的 分 布 

数据 分 布 的 一 个 重要 原因 是 由 于 组 织 机 构 自身 分 布 在 若干 节点 上 ， 而 每 个 节点 都 有 主要 与 


Tile 
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该 节点 密切 相关 的 数据 。 例 如 : 

1. 一 个 银行 可 能 有 许多 分 行 。 每 个 分 行 ( 或 给 定 城市 中 所 有 分 行 构 成 的 一 个 组 ) 将 保存 该 
分 行 〈《 城 市 ) 维护 的 账户 数据 库 。 客 户 可 以 选择 在 任何 一 个 分 行 存款 ， 但 常常 会 在 “自己 的 ” 
分 行 即 保存 该 客户 账户 数据 的 分 行 存款 。 银 行 的 中 央 机 构 也 可 能 保存 数据 ， 如 员工 记录 或 像 当 
前 利率 这 样 的 政策 。 当 然 ， 各 分 行 的 记录 都 有 备份 ， 这 个 备份 可 能 既 不 在 分 行 机 构 ， 也 不 在 中 
央 机 构 。 

2. 一 个 连锁 店 可 能 有 许多 单独 的 商店 。 每 个 商店 〈 或 给 定 城市 所 有 商店 构成 的 一 个 组 ) 有 
该 商店 的 销售 和 存货 数据 库 。 可 能 有 一 个 中 央 机 构 ,， 它 保存 员工 数据 、 整 个 连锁 店 的 存货 数据 、 
信用 卡 客户 数据 以 及 供应 商 的 信息 ， 例 如 货物 尚未 交付 的 订单 和 欠 债 情况 。 此 外 ， 所 有 商店 
销售 数据 的 一 个 副本 可 能 都 存放 在 一 个 “数据 仓库 ”中 ， 可 以 用 来 通过 分 


影响 通信 开销 的 因素 

由 于 带宽 开销 迅速 成 小 ， 有 人 可 能 对 设计 分 布 式 数据 库 系 统 时 是 否 需要 考虑 通信 开 
销 感 到 疑惑 。 现 在 ， 某 些 类 型 的 数据 属于 电子 方式 管理 的 大 对 象 ， 因 此 即使 在 通信 开销 
极 小 时 ， 以 太 字 节 计 的 数据 的 传输 开销 也 是 不 能 忽略 的 。 此 外 ， 通信 开销 通常 不 仅仅 涉 
及 数据 的 传送 ， 还 有 为 数据 传送 做 准备 的 各 层 协 议 、 在 接收 方 重建 数据 以 及 通信 的 管理 。 
这 些 协议 各 自 都 需要 大 量 的 计算 。 尽 管 计算 开销 也 在 减 小 ， 与 关键 数据 库 操 作 的 传统 单 
处 理 器 执行 相 比 ， 进 行 通信 所 需 的 计算 可 能 仍然 不 能 忽视 。 


析 员 的 即席 查询 分 析 和 预测 销售 情况 ; 参见 20.4 节 。 

3. 一 个 数字 图 书馆 可 能 由 一 些 大 学 联合 构成 ， 每 个 大 学 都 有 一 些 在 线 书籍 和 其 他 文档 。 在 
任 一 节点 上 进行 搜索 都 将 查看 所 有 节点 文档 的 目录 ， 并 且 在 某 个 节点 上 有 满足 条 件 的 文档 时 提 
交 该 文档 的 一 个 电子 拷贝 。 

在 某 些 情况 下 ， 逻 辑 上 看 做 一 个 关系 的 数据 可 能 在 多 个 节点 上 进行 划分 。 例 如 ， 我 们 可 以 
认为 连锁 商店 只 有 单独 的 一 个 关于 销售 的 关系 ， 如 

Sales (item, date, price, purchaser) 
但 是 ， 这 个 关系 并 非 物 理 地 存在 ， 而 是 一 些 模式 相同 的 关系 的 并 ， 其 中 的 每 个 关系 存在 连锁 店 
的 一 个 商店 中 。 这 些 局 部 的 关系 称 为 片段 ， 而 将 这 个 逻辑 关系 划分 为 物理 片段 则 称 为 关系 
Sales 的 水 平分 解 。 我 们 认为 这 一 划分 是 “水 平 的 "， 是 因为 我 们 可 以 把 这 一 划分 看 做 是 用 若 
二 水 平 线 将 单一 的 关系 Sales 的 元 组 分 隔 成 每 个 商店 的 元 组 集合 。 

在 另 一 些 情况 下 ， 分 布 式 数据 库 似乎 对 关系 做 “垂直 ”划分 ， 即 将 一 个 逻辑 的 关系 分 解 为 
两 个 或 更 多 关系 ， 每 个 关系 有 原来 的 一 个 属性 子 集 且 位 于 不 同 节点 。 例 如 ， 如 果 我 们 想 要 找 出 
Boston 商 让 的 哪些 销售 记录 扁 于 信用 卡 付款 拖欠 90 天 以 上 的 客户 ， 最 好 有 一 个 关系 (或 视图 ) 
包含 sales 中 的 货物 、 日 期 、 购 买 者 信息 以 及 该 购买 者 最 后 一 次 信用 卡 付款 日 期 。 但 是 ， 在 我 
们 所 描述 的 场景 中 ， 这 一 关系 是 垂直 分 解 的 ， 并 且 需 要 在 总 部 将 Boston 商 店 的 Sales 片 段 与 信 
用 卡 客户 关系 进行 连接 。 

19.4.2 分 布 式 事务 . 

数据 分 布 的 结果 是 一 个 事务 可 能 涉及 多 个 节点 的 处 理 ， 因 此 事务 的 模型 必须 修改 。 事 务 不 
再 是 单个 节点 上 的 单个 处 理 器 所 执行 的 一 段 代码 ， 该 处 理 器 只 需 与 一 个 调度 器 和 一 个 日 志 管理 
器 进行 通信 。 相 反 ， 事 务 由 一 些 相互 通信 的 事务 成 分 构成 ， 每 个 部 件 位 于 不 同 的 节点 并 与 局 部 

{1020} 的 调度 器 和 日 志 管理 器 通信 。 因 此 ， 两 个 需要 重新 考虑 的 重要 问题 是 
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1. 如 何 管理 分 布 事务 的 提交 /中 止 决定 ? 如 果 事 务 的 一 个 部 件 希望 中 止 整 个 事务 ， 而 其 他 
部 件 没有 遇 到 任何 问题 因而 希望 提交 事务 ， 这 时 会 发 生 什么 ? 我 们 在 19.5 节 讨论 一 种 称 为 “两 
阶段 提交 ”的 技术 ; 它 能 做 出 正确 的 决定 ， 并 且 常 常 允许 正常 的 节点 在 其 他 节点 发 生 故 障 时 仍 
能 继续 工作 。 

2. 我 们 怎样 保证 涉及 多 个 节点 上 部 件 的 事务 的 可 串 行 性 ? 在 19.6 节 我 们 具体 讨论 封锁 ， 看 
一 看 锁 表 怎样 用 来 支持 数据 库 元 素 的 全 局 封锁 ， 并 因而 支持 分 布 式 环境 中 事务 的 可 串 行 性 。 
19.4.3 数据 复制 

分 布 式 系 统 的 一 个 重要 好 处 是 可 以 复制 数据 ， 即 在 不 同 的 节点 上 建立 数据 的 副本 。 这 样 做 
的 一 个 动机 是 ， 如 果 一 个 节点 发 生 故 障 ， 可 能 另 一 个 节点 可 以 提供 与 故障 节点 相同 的 数据 。 另 
一 个 作用 是 可 以 通过 在 提交 查询 的 节点 上 建立 所 需 数据 的 副本 来 提高 回答 查询 的 速度 。 例 如 : 

1. 银行 可 以 在 每 个 分 行 建立 当前 利率 政策 的 副本 ， 这 样 关于 利率 的 查询 就 不 需要 送 到 中 央 
机 构 。 

2. 连锁 店 可 以 在 每 个 商店 维护 供应 商 信息 副本 ， 这样， 对 供应 商 信息 的 局 部 查询 ( 例如 ， 
经 理 希望 知道 某 个 供应 商 的 电话 以 查询 送 货 情况 ) 就 可 以 在 不 向 中 央 机 构 传送 消息 的 前 提 下 得 
以 解决 。 

3. 在 电子 图 书馆 的 例子 中 ， 如 果 某 个 学 校 的 学 生 需 要 读 某 个 指定 的 文档 ， 该 文档 的 一 个 副 
本 可 以 暂时 缓存 在 这 个 学 校 。 

然而 ,数据 复制 带 来 了 几 个 问题 。 

a) 我 们 怎样 保持 副本 相互 一 致 ”实质 上 ， 对 有 副本 的 数据 库 元 素 的 更 新 将 变 成 更 新 所 有 
副本 的 分 布 式 事务 。 

b) 我 们 怎样 确定 维护 多 少 副本 以 及 在 什么 地 方 维护 副本 ? 副本 越 多 ， 更 新 就 越 难 ， 而 
查询 就 越 容易 。 例 如 ， 一 个 极 少 更 新 的 关系 可 以 在 各 个 地 方 都 有 副本 ， 使 效率 最 
高 ; 而 一 个 频繁 更 新 的 关系 或 许 就 只 有 一 两 个 副本 。 

c) 当 网 络 通信 发 生 故 障 时 ， 同 一 数据 的 不 同 副 本 可 能 各 自演 化 ， 因 而 在 网 络 连 接 恢复 时 
必须 对 各 个 副本 进行 协调 ， 这 种 情况 需要 做 什么 ? 

19.4.4 分 布 式 查询 优化 

分 布 式 数据 的 存在 还 影响 到 物理 查询 计划 ( 见 16.7 节 ) 设计 的 复杂 性 和 可 选 方案 。 在 选择 
物理 计划 时 必须 考虑 的 问题 包括 ，: 

1. 如 果 某 个 所 需 关系 R 有 多 个 副本 ， 那 么 我 们 应 该 从 哪个 副本 中 获得 R 的 值 ? 

2. 当 我 们 在 两 个 关系 R 和 $ 上 实施 某 个 操作 例如 连接 时 ， 有 多 个 可 选 方案 而 且 必 须 选择 其 中 
之 一 。 一 些 可 能 的 选项 如 下 : 

(a) 我 们 可 以 将 5 复制 到 R 所 在 节点 ， 并 在 该 节点 执行 计算 。 

b) 我 们 可 以 将 R 复 制 到 S 所 在 节点 ， 并 在 该 节点 执行 计算 。 

(c) 我 们 可 以 将 R 和 5 都 复制 到 二 者 各 自 所 在 节点 之 外 的 第 三 个 节点 ， 并 在 该 节点 执行 计 
算 。 

哪 种 选择 最 好 ， 这 依赖 于 多 个 因素 ， 其 中 包括 哪个 节点 上 有 可 用 的 处 理 时 间 以 及 操作 结果 
是 否 需要 与 第 三 个 节点 上 的 数据 相 结合 等 。 例 如 ， 如 果 我 们 计算 (Rea 5) sa T， 那 么 可 以 将 R 和 5 
都 传送 到 7 所 在 节点 ， 并 在 该 节点 上 执行 两 个 连接 操作 。 

如 果 关 系 R 由 分 布 在 若干 节点 上 的 片段 Ri, Ro, …, Ry 构成 ， 那 么 在 选择 逻辑 查询 计划 时 ， 我 
们 还 应 该 考虑 用 
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代表 19.4.1 节 中 讨论 的 Sales 关 系 的 一 个 片段 ， 而 每 个 片段 都 对 应 于 一 个 商店 ， 那 么 在 关于 

Boston 商 店 销售 人 额 的 查询 中 我 们 可 以 去 除 集合 并 中 除 Boston 的 片段 外 的 所 有 Ri。 

19.4.5 习题 

+l 习题 19.4.1 下面 的 习题 使 你 能 体会 到 在 决定 数据 复制 策略 时 将 会 遇 到 的 一 些 问 题 。 假 设 
有 nn 个 节点 都 要 访问 关系 R。 对 于 i = 1, 2, …, n， 第 i 个 节点 每 秒 钟 都 提出 关于 R 的 查询 gq; 和 
对 R 的 更 新 u; 。 如 果 在 提出 查询 的 节点 上 有 RR 的 副本 ， 那 么 查询 执行 的 开销 为 <， 否 则 开销 
为 10c。 在 提出 更 新 的 节点 上 ， 更 新 R 的 副本 的 开销 为 4， 而 更 新 其 他 节点 上 每 个 副本 的 开 
销 为 10d。 对 于 一 个 很 大 的 x， 你 如 何 根 据 这 些 参数 选择 在 什么 样 的 节点 集合 上 复制 R。 


19.5 分 布 式 提交 


在 本 节 中 ， 我 们 将 讨论 在 多 个 节点 上 有 组 成 成 分 的 分 布 式 事务 如 何 原子 地 执行 的 问题 。 下 
一 节 讨 论 分 布 式 事务 的 另 一 个 重要 性 质 ， 即 执行 的 可 串 行 性 。 我 们 将 以 一 个 例子 来 说 明 可 能 出 
现 的 问题 。 

例 19.17 考虑 19.4 节 我 们 提 到 的 连锁 店 的 例子 假设 连锁 店 的 某 个 经 理想 要 查询 所 有 商店 ， 
找 出 所 有 店 中 牙刷 的 仓储 情况 ， 然 后 指示 将 牙刷 从 一 些 商 店 运 到 另 一 些 商 店 ， 以 平衡 仓储 。 该 
操作 由 一 个 全 局 的 事务 7 来 完成 ; 事务 7 在 第 ;个 商店 有 组 成 成 分 7 ， 并 且 在 该 经 理 所 在 的 机 构 
有 组 成 成 分 T 6。。7 执 行 的 动作 序列 概括 如 下 : 

1. 成 分 To 在 经 理 所 在 节点 上 创建 。 

2. To 向 所 有 商店 发 送 消 息 ， 指 示 它 们 创建 成 分 7;。 

3. 每 个 7 在 商店 ;执行 一 个 查询 ， 找 出 该 商店 库存 的 牙刷 数目 ， 然 后 将 这 一 数目 报告 给 To。 

4. To 接收 这 些 数 ， 并 根据 某 种 算法 决定 需要 运输 的 牙刷 数量 ,使 用 的 算法 我 们 在 此 不 做 讨 
论 。 然 后 ，To 发 送 “ 商 店 10 应 该 运输 500 支 牙刷 到 商店 7” 这 样 的 消息 给 对 应 的 商店 ( 本 例 中 为 
商店 7 和 商店 10 )。 

5. 接收 到 指示 的 商店 更 新 存货 清单 并 送 货 。 口 


19.5.1 分 布 式 原子 性 的 支持 

在 例 19.17 中 ,很 多 地 方 都 可 能 出 错 ， 而 其 中 的 许多 错误 都 会 导致 7 的 原子 性 受到 破坏 。 也 
就 是 说 ， 组 成 7 的 某 些 动作 得 以 执行 ， 而 另 一 些 动 作 却 没有 执行 。 我 们 假定 在 各 个 节点 上 都 应 
该 有 的 日 志和 恢复 机 制 保证 每 个 7 的 执行 都 是 原子 的 ， 但 它们 不 能 保证 T 本 身 的 原子 性 。 

例 19.18 ”假设 重新 分 配 牙 刷 的 算法 中 有 一 个 错误 ， 导 致 要 求 商店 10 运 输 的 牙刷 数量 比 该 
商店 的 库存 量 还 多 。 在 这 种 情况 下 ，Tio 将 中 止 ， 牙 刷 不 会 从 商店 10 运 出 ， 且 商店 10 的 存货 清 
单 也 不 会 更 改 。 然 而 ， 商 店 7 的 没有 发 现任 何 错误 并 提交 ， 它 修改 了 该 商店 的 存货 清单 以 反 
映 假设 应 运输 的 牙刷 数量 。 现 在 ，7 不 仅 不 能 原子 地 执行 ( 因为 Tio 永 远 也 不 能 完成 )， 还 使 分 
布 式 数据 库 处 于 不 一 致 的 状态 ; 存货 清单 上 的 牙刷 数量 与 实际 的 数量 不 等 。 口 


导致 问题 的 另 一 种 情况 是 分 布 式 事务 执行 过 程 中 某 个 节点 可 能 发 生 故障 或 与 网 络 断 连 。 

例 19.19 ”假设 在 响应 To 的 第 一 条 消息 时 ，Tio 告 诉 To 自己 的 牙刷 存货 量 。 但 是 ， 商店 10 的 
机 器 在 此 后 崩 演 ，70 发 出 的 指示 就 再 也 不 能 被 Tio 收 到 。 分 布 式 事务 7 能 提交 吗 ? Tio 在 其 所 在 节 
点 恢复 时 应 该 做 什么 ? 口 
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19.5.2 两 阶段 提交 

为 了 避免 19.5.1 节 中 所 提 到 的 那些 问题 ， 分 布 式 DBMS 在 决定 是 否 提交 一 个 分 布 式 事务 时 
使 用 很 复杂 的 协议 。 在 本 节 中 ， 我 们 将 描述 这 些 协议 所 基于 的 基本 思想 ， 也 就 是 两 阶段 提交 日 。 
通过 做 出 关于 提交 的 全 局 决定 ， 事 务 的 成 分 要 么 都 提交 ,要么 都 不 提交 。 和 往常 一 样 ， 我 们 假 
设 每 个 节点 上 的 原子 性 机 制 保 证 该 节点 上 的 局 部 事务 成 分 要 么 提交 ， 要 么 对 该 节点 上 的 数据 库 
状态 不 产生 任何 影响 ;也 就 是 说 ， 事 务 的 各 成 分 都 是 原子 的 。 因 此 ， 通 过 实行 分 布 式 事务 的 所 
有 成 分 要 么 都 提交 要 么 都 不 提交 这 一 -规则 ， 我 们 可 以 保证 分 布 式 事务 本 身 的 原子 性 。 

下 面 是 关于 两 阶段 提交 的 几 个 要 点 : 

“在 两 阶段 提交 中 ， 我 们 假设 每 个 节点 记录 该 节点 上 动作 的 日 志 , 但 没有 全 局 的 日 志 。 

， 我 们 还 假设 一 个 称 为 协调 器 的 节点 在 决定 分 布 式 事务 是 否 提 交 中 扮演 特殊 的 角色 。 例 如 ， 

协调 器 可 能 是 发 起 事务 的 节点 ， 比 方 说 19.5.1 节 的 例子 中 的 节点 To。 

“两 阶段 提交 协议 涉及 协调 器 和 其 他 节点 之 间 的 消息 发 送 。 在 发 送 每 条 消息 时 ， 发 送 节点 

都 将 把 该 消息 记录 到 日 志 中 ， 以 便 在 需要 恢复 时 提供 帮助 。 

记 住 这 些 要 点 后 ， 我 们 可 以 按照 节点 之 间 发 送 的 消息 来 描述 两 阶段 提交 。 
阶段 I : 

在 两 阶段 提交 的 第 一 个 阶段 中 ， 分 布 式 事务 7 的 协调 器 决定 何 时 试图 提交 7T。 大 概 在 位 于 协 
调 器 节点 上 的 事务 7 的 成 分 准备 好 提交 后 开始 试图 提交 ， 但 原则 上 即使 协调 器 的 成 分 希望 中 止 ， 
各 个 步骤 仍然 要 执行 (然而 正如 我 们 将 看 到 的 那样 ， 这 些 步骤 有 了 极 大 的 简化 )。 协 调 器 询问 
包含 事务 T 的 成 分 的 所 有 节点 ， 以 确定 这 些 节 点 希望 提交 还 是 中 止 。 

1. 协调 器 在 所 在 节点 的 日 志 中 放 入 <Prepare 7T> 日 志 记 录 。 

2. 协调 器 向 成 分 所 在 的 各 个 节点 ( 原则 上 包含 它 自己 ) 发 送 消息 prepareT。 

3. 每 个 接收 到 消息 prepare 7 的 节点 决定 该 节点 上 7 的 成 分 是 提交 还 是 中 止 。 如 果 事 务 成 
分 尚未 完成 其 行动 ， 节 点 可 以 推迟 发 送 响应 的 消息 ， 但 终究 是 要 发 送 的 。 

4. 如 果 节 点 希望 提交 其 事务 成 分 ， 就 必须 进入 一 个 称 为 预 提交 的 状态 。 一 旦 进入 预 提 交 状 
态 ， 节 点 就 不 能 中 止 其 上 的 7 的 成 分 ， 除 非 协调 器 指示 中 止 事 务 。 进 入 预 提 交 状 态 必须 执行 如 
FHR.: ， 

(a) 执行 为 保证 T 的 局 部 成 分 再 没有 必要 中 止 而 必须 的 所 有 步骤 ， 使 即便 该 节点 上 发 生 
故障 然后 又 恢复 的 情况 下 此 事务 成 分 也 不 需 中 止 。 因 此 ， 不 仅 与 局 部 T 相 关 的 所 有 
动作 都 必须 执行 ， 还 需要 执行 与 日 志 相关 的 适当 动作 ， 以 保证 恢复 时 7 将 被 重 做 而 
不 是 被 撤销 。 所 需 动 作 依赖 于 月 志方 式 ， 但 显然 与 局 部 7 的 动作 相关 的 日 志 记录 必 
须 刷新 到 磁盘 上 。 

b) 在 局 部 日 志 中 放 入 记录 <Ready 7>, 并 将 日 志 刷 新 到 磁盘 。 

(c) 向 协调 器 发 送 ready THE. 

但 是 ,该 节点 在 这 时 并 未 提交 其 上 的 7 的 成 分 ， 它 必须 等 待 第 二 个 阶段 。 

5. 如 果 情 况 正好 相反 ， 节 点 希望 中 止 其 7 的 成 分 ， 那么 它 记载 日 志 记 录 <Don't commit 

7T>， 并 向 协调 器 发 送 消息 don 't commit T。 这 时 中 目 事 务 成 分 是 安全 的 ， 因 为 即使 

只 有 一 个 节点 希望 中 止 ， 事 务 7 也 肯定 会 中 止 。 

图 19-16 概 括 了 第 一 阶段 中 的 消息 。 


@ 不 要 混淆 两 阶段 提交 和 两 阶段 封锁 。 它 们 是 相互 独立 的 概念 ， 用 来 解决 不 同 的 问题 。 
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阶段 I prepare y 
第 二 阶段 从 协调 器 收 到 来 自 各 节点 的 ready 
Mdon't commit 响 应 开始 。 然 而 ， 有 可 能 某 
些 节点 不 能 进行 响应 ; 这 样 的 节点 可 能 是 停机 
了 ， 也 可 能 已 经 与 网 络 断 连 。 在 这 种 情况 下 ， 
调 器 会 在 某 个 合适 的 超时 期 间 后 将 这 样 的 节 
AAU Tdon © O E LAE, TEET 
1. 如 果 协 调 器 从 7 的 所 有 成 分 接收 到 的 都 是 


ready 或 
a don’t commit 





commit 或 
ready T, 那么 它 就 决定 提交 T。 协 调 器 abort # 
(a) 在 其 节点 中 记载 <commit TH Hid 
录 ; 并 且 
JBE 点 发 3 ET 
oC 与 7 的 所 有 节点 发 送 commit 协调 器 


2. 如 果 协 调 器 收 到 来 自 一 个 或 多 个 节点 的 

don't commit 7 消息 ， 那 么 它 
(@) 在 其 节点 中 记录 <Abort 7 日 志 记录 ; IFA 
(b) 向 参与 7 的 所 有 节点 发 送 abort 7 消息 。 

3. 如 果 节 点 收 到 commit 7 消息 ， 该 节点 将 提交 其 上 的 7 的 成 分 ， 并 在 此 过 程 中 记录 日 志 
<Commit T>. 

4. 如 果 节 点 收 到 abort 7 消息 ， 该 节点 将 中 止 T， 并 写 人 日 志 记录 <aAbort T>, 

图 19-17 概 括 了 第 二 阶段 中 的 消息 。 

19.5.3 分 布 式 事务 的 恢复 

在 两 阶段 提交 过 程 中 的 任何 时 候 ， 节 点 都 可 能 发 生 故 障 。 我 们 需要 保证 在 该 故障 节点 恢复 
时 发 生 的 一 切 都 和 分 布 式 事务 7 的 全 局 决定 一 致 。 根 据 7 最 后 一 个 日 志 项 的 不 同 ， 有 几 种 情况 需 
要 考虑 : 

1. 如 果 7 的 最 后 一 个 日 志 记录 是 <commit 7T>， 那 么 协调 器 必然 已 经 提交 T。 根 据 所 使 用 的 
日 志方 式 ， 在 恢复 节点 上 可 能 需要 重 做 该 节点 上 的 7 成 分 。 

2. 如 果 最 后 一 个 日 志 记录 是 <abort 7>， 那 么 类 似 地 我 们 知道 全 局 的 决定 是 中 止 T7。 根 据 
所 使 用 的 日 志方 式 ， 在 恢复 节点 上 可 能 需要 撤销 该 节点 上 的 7 的 成 分 。 

3. 如 果 最 后 一 个 日 志 记 录 是 <Don't comit T>， 那么 该 节点 知道 全 局 的 决定 必然 是 中 止 
7。7 对 局 部 数据 库 的 影响 可 能 需要 撤销 。 

4. 比较 难 的 情况 是 7 的 最 后 一 个 日 志 记 录 是 <Ready 7T>。 现 在 ,正在 恢复 的 节点 并 不 知道 全 
局 的 决定 是 提交 T 还 是 中 止 7。 该 节点 必须 和 至 少 一 个 其 他 的 节点 交流 ， 以 找 出 关于 7 的 全 局 决 
定 。 如 果 协 调 器 在 工作 ， 那 么 该 节点 可 以 询问 协调 器 。 如 果 这 时 协调 器 未 工作 ， 那 么 可 以 要 求 
其 他 的 某 个 节点 查看 日 志 以 找 出 7 的 结局 。 在 最 坏 的 情况 下 ， 恢 复 节点 与 其 他 所 有 节点 都 联系 
不 上 ， 这 时 7 的 局 部 成 分 必须 保持 活跃 ， 直 到 确定 关于 7 的 决定 是 提交 还 是 中 止 。 

5. 局 部 日 志 中 也 可 能 没有 关于 7 在 两 阶段 提交 协议 中 的 动作 的 记录 。 如 果 这 样 ， 那 么 恢复 
节点 可 以 单方 面 地 决定 中 止 其 7 成 分 ， 这 和 所 有 日 志方 式 都 是 一 致 的 。 有 可 能 协调 器 已 经 检测 
到 该 故障 节点 超时 ， 并 决定 中 止 7。 如 果 故 障 持续 时 间 很 短 ， 那 么 7 在 别 的 节点 上 仍 可 能 是 活跃 
的 ; 但 是 ， 如 果 恢 复 节点 决定 中 止 其 7 成 分 ， 并 稍 后 在 第 一 阶段 中 被 询问 时 用 aon 't commit 


图 19-17 两 阶段 提交 的 第 二 阶段 中 的 消息 
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7 回答 ,不 一 致 的 情况 肯定 不 会 发 生 。 

上 面 的 分 析 中 假设 故障 节点 不 是 协调 器 。 如 果 协 调 器 在 两 阶段 提交 中 发 生 故 障 ， 就 会 产生 
一 些 新 的 问题 。 首 先 ， 余 留 的 参与 节点 要 么 等 待 协 调 器 恢复 ， 要 么 选举 一 个 新 的 协调 器 。 由 于 
原 协调 器 可 能 无 限期 地 停止 工作 ， 因 此 最 好 选举 一 个 新 的 领导 ， 至 少 在 一 个 较 短 的 等 待 时 间 以 
观察 协调 器 能 否 恢复 后 应 重新 选举 。 

领导 选举 这 个 问题 本 身 就 是 分 布 式 系统 中 一 个 极其 复杂 的 问题 ， 不 在 本 书 所 要 讨论 的 范围 
内 。 然 而 ， 有 一 种 简单 的 方法 在 大 多 数 情况 下 都 可 以 使 用 。 例 如 ， 我 们 可 以 假设 所 有 参与 节点 
都 有 用 作 惟 一 标识 的 编号 ; 许多 情况 下 可 以 使 用 IP 地 址 。 所 有 参与 者 都 向 其 他 节点 发 送 消息 ， 
宣称 自己 可 以 作为 领导 ， 并 给 出 自己 的 标识 编号 。 在 一 段 适当 的 时 间 后 ， 所 有 参与 者 都 将 自己 
所 听 到 的 编号 最 低 的 节点 作为 新 的 协调 器 ， 并 将 关于 这 一 结果 的 消息 发 送 给 其 他 的 所 有 节点 。 
如 果 所 有 节点 接收 到 一 致 的 消息 ， 那 么 新 协调 器 就 有 了 惟一 的 选择 ， 并 且 每 个 节点 都 知道 这 个 
节点 是 娜 一 个 。 如 果 有 不 一 致 ， 或 者 某 个 余 留 的 节点 未 做 出 回答 ， 这 也 会 被 所 有 节点 知道 ， 而 
选举 再 次 开始 。 

现在 ， 新 的 领导 询问 各 个 节点 关于 每 个 分 布 式 事务 7 的 信息 。 如 果 在 节点 的 日 志 中 有 关于 7 
的 记录 ， 那 么 节点 就 报告 其 中 的 最 后 一 条 。 可 能 出 现 的 情况 有 : 

1. 某 个 节点 的 日 志 中 有 <commit TER, AB AVR URAR 然 已 经 试图 向 所 有 节点 发 送 
commit 7 消息 ， 因 而 将 7 提交 是 安全 的 。 

2. 类 似 地 ， 如 果 某 个 节点 的 日 志 中 有 <Abort T> 记 录 ， 那 么 原 协 调 器 必然 已 经 决定 中 止 7， 
因而 新 协调 器 下 令 中 止 7 是 安全 的 。 

3. 假设 现在 所 有 节点 上 都 没有 <Commit TS> 或 <Abort 人 记录， 但 至 少 一 个 节点 的 日 志 中 
没有 <Ready 7>。 那 么 ， 由 于 记录 日 志 发 生 在 发 送 对 应 消息 之 前 ， 我 们 知道 原 协调 器 不 可 能 已 
收 到 这 一 节点 的 ready 7 消息 ， 因 而 不 可 能 已 经 决定 提交 7。 对 新 协调 器 来 说 ， 决 定 中 止 7 是 安 
全 的 。 

4. 最 困难 的 情况 是 找 不 到 <Commit 7T> 和 <Abort T, 但 每 个 余 留 的 节点 上 都 有 <Ready 
T>。 现 在 ， 我 们 不 能 确定 原 协 调 器 是 否 已 发 现 中 止 或 不 中 止 7 的 原因 ; 例如 ， 它 可 能 由 于 自身 
所 在 节点 上 的 动作 而 决定 中 止 7， 也 可 能 由 于 接收 到 另 一 故障 节点 的 don ' t commit 7 消息 而 
决定 中 止 7。 原 协调 器 也 有 可 能 已 经 决定 提交 T， 并 已 经 提交 其 7 的 局 部 成 分 。 因 此 ， 新 协调 器 
不 能 决定 是 提交 了 7 还 是 中 止 7， 而 必须 等 待 原 协调 器 恢复 。 在 实际 的 系统 中 ， 数 据 库 管 理 员 可 
以 对 此 进行 干涉 ， 并 手工 强制 所 有 等 待 中 的 事务 成 分 完成 。 其 结果 是 可 能 破坏 原子 性 ， 但 执 
行 被 阻塞 事务 的 人 将 得 到 通知 ， 可 以 采取 一 些 适 当 的 补救 措施 。 

19.5.4 习题 - 
! 习题 19.5.1 考虑 在 一 台 家 用 计算 机 上 发 起 的 一 个 事务 T， 该 事务 请 求 银行 3 从 该 行 某 个 账 

户 中 的 10 000 美 元 转 入 银行 C 中 的 另 一 账户 。 

* a) 分 布 式 事务 7 的 成 分 有 哪些 ?位 于 8 和 C 的 事务 成 分 各 需要 做 什么 ? 
b) 如 果 B 的 账户 中 没有 10 000 美 元 ， 那 么 会 出 现 什 么 错误 ? 
c) 如 果 一 个 银行 或 两 个 银行 的 计算 机 崩溃 或 者 网 络 断 连 ， 那么 会 发 生 什 么 错误 ? 
d 如 果 (c) 中 提出 的 问题 有 一 个 发 生 了 ， 那 么 在 计算 机 和 网 络 正常 工作 后 事务 怎样 正 
确 地 继续 下 去 ? 
习题 19.5.2 在 本 习题 中 ,我们 需要 一 种 描述 两 阶段 提交 中 可 能 发 生 的 消息 序列 的 记 法 。 
Bi, j, M) 表示 节点 i 向 节点 发 送 消息 M， 其 中 MM 的 值 及 其 含义 可 以 是 P (MEZ), R 
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(准备 好 提交 )、 (不 要 提交 )、C ( 提交 ) 和 4 ( 中 止 )。 我 们 将 讨论 一 种 简单 的 情形 ， 其 

中 节点 0 是 协调 器 ， 但 除 此 外 它 不 再 担任 事务 中 的 任何 工作 ; 节点 1 和 节点 2 是 事务 成 分 。 

例如 ， 下 面 是 在 事务 成 功 提交 过 程 中 可 能 发 生 的 消息 序列 : 
(0, 1, P), (0, 2, P), (2, 0, R), (1, 0, R), (0, 2, C), (0, 1, C) 

* a) 举 出 节点 1 和 希望 提交 而 节点 2 希望 中 止 时 可 能 发 生 的 消息 序列 的 一 个 例子 。 

= b) 如 果 事 务 成 功 提交 ， 像 上 面 这 样 可 能 发 生 的 消息 序列 有 多 少 ? 

! Y 假设 不 发 生 故 障 ， 如 果 节 点 ! 希 望 提交 而 节点 2 不 希望 ， 那 么 有 多 少 可 能 的 消息 序 
列 ? 

1 dg 如果 节点 1 希望 提交 ， 但 节点 2 停止 工作 且 没 有 对 销 息 做 出 响应 ,那么 有 多 少 可 能 的 
消息 序列 ? 

习题 19.5.3 ”使 用 习题 19.5.2 中 的 记 法 ， 假 设 节点 包括 一 个 协调 器 和 另外 mn 个 作为 事务 成 分 

的 节点 。 作 为 m 的 函数 ， 事 务 成 功 提交 时 可 能 的 消息 序列 有 多 少 ? 


19.6 分 布 式 封锁 


在 本 节 中 ， 我 们 将 讨论 如 何 把 封锁 调度 器 扩展 到 事务 是 分 布 的 且 由 若干 节点 上 的 成 分 构成 
时 的 情况 。 假 设 锁 表 由 各 个 节点 管理 ， 并 且 各 个 节点 上 的 事务 成 分 只 能 申请 该 节点 中 数据 元 素 
上 的 锁 。 

当 数 据 被 复制 时 ， 我 们 必须 设法 使 每 个 事务 对 同一 元 素 X 的 所 有 副本 的 改变 以 同样 的 方式 
进行 。 这 一 要 求 引 人 了 封锁 逻辑 数据 库 元 素 X 与 封锁 的 一 个 或 多 个 副本 的 差别 。 在 本 节 中 ， 
我 们 将 提供 一 种 适用 于 有 副本 数据 和 无 副本 数据 的 分 布 式 封锁 算法 代价 模型 。 但 是 ， 在 介绍 这 
一 模型 前 ， 我 们 先 考虑 解决 分 布 式 数据 库 中 锁 的 维护 问题 的 一 个 显而易见 的 ( 且 有 时 能 解决 问 
题 的 ) 方法 一 一 集中 封锁 。 

19.6.1 集中 封锁 系统 

最 简单 的 方法 可 能 是 指定 一 个 封锁 节点 来 维护 一 张 丙 辑 元 素 的 锁 表 ， 而 不 管 这 些 元 素 在 该 
节点 上 是 否 有 副本 。 当 事务 希望 获得 逻辑 元 素 上 的 锁 时 ， 它 向 该 封锁 节点 发 送 一 个 请 求 ， 而 
该 节点 根据 实际 情况 授予 或 拒绝 。 由 于 获得 X 上 的 全 局 锁 等 同 于 在 该 封锁 节点 获得 X 上 的 局 部 
锁 ， 因 此 只 要 该 封锁 节点 按照 传统 的 方式 来 管理 锁 ， 我 们 就 可 以 保证 全 局 封锁 行为 的 正确 性 。 
除了 事务 恰好 在 封锁 阶段 上 运行 外 ， 一 般 情况 下 每 个 锁 的 开销 为 三 次 消息 传递 《请 求 、 授 巴 
和 释放 )。 

在 菜 些 情况 下 ， 使 用 单一 封锁 节点 就 足够 了 ， 但 如 果 节点 和 并 发 事务 很 多 ， 那 么 封锁 节点 
可 能 成 为 瓶颈 。 此 外 ， 如 果 封 锁 节点 崩溃 ， 那 么 其 他 任何 节点 都 不 能 获得 锁 。 由 于 集中 封锁 存 
在 这 些 问 题 ， 维 护 分 布 式 封锁 可 以 用 一 些 别 的 方法 ， 我 们 将 在 讨论 如 何 估计 封锁 代价 之 后 介绍 
这 些 方法 。 

19.6.2 分 布 式 封锁 算法 的 代价 模型 

假设 每 个 数据 元 素 正好 在 一 个 节点 上 存在 〈 即 不 进行 数据 复制 )， 并 且 每 个 节点 上 的 封锁 
管理 器 存储 该 节点 上 的 锁 和 锁 请 求 。 事 务 可 以 是 分 布 式 的 ， 一 个 事务 可 能 由 一 个 或 多 个 节点 上 
的 成 分 组 成 。 

尽管 与 封锁 管理 相关 的 代价 是 多 方面 的 ， 但 其 中 有 很 多 都 是 固定 的 ， 与 事务 在 网 络 上 请 求 
封锁 的 方式 无 关 。 我 们 能 够 控制 的 一 个 代价 因素 是 事务 获得 和 释放 锁 时 节点 之 间 传 送 的 消息 数 。 
因此 ， 我 们 将 在 假设 所 有 封锁 请 求 都 被 同意 的 前 提 下 计算 各 种 封锁 模式 需要 的 消息 数 。 当 然 ， 


二 
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封锁 请 求 可 能 被 拒绝 , 这 将 导致 拒绝 请 求 的 一 条 额外 消息 以 及 后 来 授予 锁 时 的 一 条 消息 , 但 是 ， 
由 于 我 们 不 能 预知 拒绝 封锁 的 频率 ,并 日 这 一 频率 不 是 我 们 所 能 控制 的 东西 ， 所 以 在 比较 中 将 
忽略 这 一 额外 的 消息 需求 。 

例 19.20 正如 我 们 在 19.6.1 节 提 到 的 那样 ， 在 集中 封锁 方式 下 ， 一 般 的 封锁 请 求 需要 三 条 
消息 : 一 条 消息 请 求 锁 ， 一 条 来 自 中 央 节 点 的 消息 授予 锁 ， 而 第 三 条 消息 释放 锁 。 例 外 的 情 
况 是 : ， 
1. 当 请 求 封锁 的 节点 就 是 中 央 封 锁 节 点 时 ， 这 些 消息 是 不 必要 的 ; 并 且 

2. 当 最 初 的 封锁 不 能 被 同意 时 ， 需 要 发 送 额 外 的 消息 。 

但 是 , 我 们 假设 这 两 种 情况 都 较 少 见 ， 即 大 多 数 封锁 请 求 来 自 中 央 封 锁 节点 以 外 的 节点 ， 并 且 
大 多 数 封锁 请 求 都 能 被 授予 。 因 此 ， 在 中 央 封 锁 方式 下 ， 每 个 锁 需 要 三 条 消息 是 一 个 比较 好 的 
估计 。 口 


现在 考虑 一 种 比 集中 封锁 更 灵活 的 情况 ， 每 个 数据 库 元 素 在 自己 的 节点 上 维护 自己 的 锁 。 
由 于 希望 封锁 X 的 事务 在 X 所 在 节点 上 将 有 成 分 ， 看 起 来 似乎 不 需要 在 节点 之 间 传 输 消 息 。 然 
而 ， 如 果 分 布 式 事务 需要 多 个 元 素 上 的 锁 ， 例 如 X、Y 和 2Z， 那 么 事务 只 有 在 这 三 个 元 素 上 的 锁 
都 获得 后 才能 完成 。 如 果 X、Y 和 Z 位 于 不 同 节点 上 ， 那 么 这 些 节 点 上 的 事务 成 分 至 少 需要 交换 
同步 消息 以 防止 事务 “超过 自己 ”。 

我 们 并 不 打算 讨论 所 有 可 能 的 变 体 ， 而 只 讨论 事务 搜集 锁 的 一 种 简单 模型 。 我 们 假设 每 个 
事务 的 一 个 成 分 即 封锁 协调 器 负责 搜集 所 有 事务 成 分 需要 的 所 有 锁 。 封 锁 协 调 器 封锁 自己 所 在 
节点 上 的 元 素 不 需 消息 ， 但 封锁 其 他 任何 节点 上 的 元 素 X 需 要 三 条 消息 ， 

1. 发 向 X 所 在 节点 以 请 求 封锁 的 消息 。 

2. 授予 锁 的 回答 消息 〈 回忆 一 下 ， 我 们 假设 所 有 锁 都 立即 被 授予 ; 否则 需要 一 条 拒绝 消息 
以 及 稍 后 的 一 条 授予 消息 )。 

3. 发 向 X 所 在 节点 以 释放 锁 的 消息 。 

由 于 我 们 只 想 对 分 布 式 封锁 协议 进行 比较 ， 而 不 打算 给 出 这 些 协 议 各 自 平均 消息 数 的 绝对 
值 ， 这 样 的 简化 可 以 解决 我 们 的 问题 。 

如 果 挑 选 事务 需要 的 锁 最 多 的 节点 作为 封锁 协调 器 , 那么 我 们 就 能 使 对 消息 的 需求 极 小 化 。 
所 需 消息 数 是 其 他 节点 上 数据 库 元 素 的 三 倍 。 

19.6.3 封锁 多 副本 的 元 素 

当 数 据 库 元 素 X 在 多 个 节点 上 有 副本 时 ， 我们 必须 小 心 处 理 X 的 封锁 。 

例 19.21 假设 数据 库 元 素 X 有 两 个 副本 XX, 和 X,，， 并 假设 事务 T 在 Xx, 所 在 节点 上 获得 了 X, 上 的 
共享 锁 ， 而 事务 U 在 X 所 在 节点 上 获得 了 Xs 上 的 排他 锁 。 现 在 ，U 可 以 修改 X,， 但 不 能 修改 X， 
这 导致 元 素 X 的 两 个 副本 变 得 不 同 。 此 外 ， 由 于 T 和 U 还 可 能 封锁 其 他 元 素 ， 且 这 两 个 事务 读 写 
大 的 顺序 不 受 它们 在 X 的 副本 上 的 锁 约 东 ， 因 此 7 和 77 还 可 能 产生 不 可 串 行 化 的 行为 。 口 

例 19.21 说 明 的 问题 是 ， 当 数据 被 复制 时 ， 我 们 必须 区 分 在 逻辑 元 素 X 上 获得 共享 锁 或 排他 
锁 与 在 X 的 某 个 副本 所 在 节点 上 获得 该 副本 的 局 部 锁 。 也 就 是 说 ， 为 了 保证 可 串 行 性 ， 我 们 要 
求 事务 获得 逻辑 元 素 上 的 全 局 锁 。 但 是 ， 逐 辑 元 素 在 物理 上 并 不 存在 ( 只 有 其 副本 存在 )， 并 且 
没有 全 局 的 锁 表 。 因 此 ， 事 务 获得 X 上 的 全 局 锁 的 惟一 办 法 是 ， 事务 在 xX 的 一 个 或 多 个 副本 所 在 
节点 上 获得 这 些 副 本 的 局 部 锁 。 我 们 现在 考虑 将 局 部 锁 转 变 为 具有 所 需 性 质 的 全 局 锁 的 方法 : 

“任意 两 个 事务 不 能 同时 获得 逻辑 元 素 X 上 的 全 局 排他 锁 。 

* 如果 一 个 事务 在 逻辑 元 素 X 上 拥有 全 局 排他 锁 ， 那么 任何 事务 都 不 能 获得 上 的 全 局 共 
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享 锁 。 

。 只 要 任何 事务 都 没有 X 上 的 全 局 排他 锁 ， 就 可 以 有 任意 多 个 事务 拥有 X 上 的 全 局 共享 锁 。 
196.4 主 副 本 封锁 

集中 封锁 方式 的 一 种 改进 是 把 封锁 节点 的 功能 分 散 ， 但 每 个 逻辑 元 素 的 封锁 只 由 一 个 节点 
负责 这 一 原则 仍 保持 不 变 。 这 样 的 分 布 封锁 方式 称 为 主 副本 方式 。 这 一 改变 避免 了 中 央 封 锁 节 
点 成 为 瓶颈 的 可 能 性 ， 但 保持 了 集中 封锁 方式 的 简单 性 。 

在 主 副本 封锁 方式 中 ， 每 个 逻辑 元 素 X 的 多 个 副本 中 有 一 个 被 指定 为 X 的 “ 主 副本 ”。 为 了 
获得 逻辑 元 素 X 上 的 锁 ， 事 务 向 X 的 主 副本 所 在 节点 发 送 一 个 请 求 。 主 副本 所 在 节点 在 其 锁 表 
中 维护 关于 X 的 一 项 ， 并 根据 实际 情况 同意 或 拒绝 这 一 请 求 。 和 前 面相 似 ， 只 要 每 个 节点 正确 
管理 主 副本 的 封锁 ， 那 么 全 局 (逻辑 ) 封锁 就 能 得 到 正确 管理 。 

和 和 集中 封锁 节点 类 似 的 另 一 个 地 方 是 ， 除 了 事务 与 主 副 本 位 于 同一 节点 的 情况 外 ， 大 多 数 
封锁 请 求 产生 三 条 消息 。 但 是 ， 如 果 我 们 精明 地 选择 主 副 本 ， 那 么 可 以 认为 事务 和 主 副本 经 常 
位 于 同一 节点 。 

例 19.22 在 连锁 店 的 例子 中 ,我 们 让 每 个 商店 存放 该 商店 销售 数据 的 主 副本 ， 而 这 一 数 
据 的 其 他 副本 例如 位 于 中 央 机 构 的 副本 或 数据 仓库 中 用 于 销售 分 析 的 副本 ) 都 不 是 主 副本 。 

通常 的 事务 很 可 能 在 一 个 商店 执行 ， 并 且 只 更 新 该 商店 的 销售 数据 。 这 类 事务 获得 锁 时 不 需要 
消息 。 只 有 在 事务 检查 或 修改 其 他 商店 的 数据 时 才 需 要 传送 与 封锁 相关 的 消息 。 口 


19.6.5 局 部 锁 构 成 的 全 局 锁 

另 一 种 方法 是 用 局 部 锁 的 集合 合成 全 局 封锁 。 在 这 样 的 模式 中 ， 数 据 库 元 素 X 没 有 “ 主 副 
本 ”; X 的 所 有 副本 是 对 称 的 ， 在 这 些 副 本 中 的 任 一 个 上 都 可 以 申请 共享 锁 或 排他 锁 。 成 功 的 
全 局 封锁 模式 的 关键 在 于 ， 事 务 只 有 获得 了 一 定数 量 的 X 副 本 上 的 锁 后 才能 假设 自己 获得 了 X 
上 的 全 局 锁 。 

假设 数据 库 元 素 4 有 n 个 副本 。 我 们 选择 两 个 数 : 

1. s 是 事务 获得 4 上 的 全 局 共享 锁 时 必须 以 共享 方式 封锁 的 4 的 副本 数 。 

2. x 是 事务 获得 4 上 的 排他 锁 时 必须 以 排他 方式 封锁 的 4 的 副本 数 。 


只 要 2x>n 且 s+x>n， 我 们 就 能 获得 所 需 的 性 质 ;， 4 上 只 能 有 一 个 排他 锁 ，4 上 不 能 既 有 一 
个 排他 锁 又 有 一 个 共享 锁 。 解 释 如 下 。 由 于 2x>n， 如 果 两 个 事务 都 有 X 上 的 全 局 排他 锁 ， 那 
么 至 少 有 一 个 副本 为 这 两 个 事务 授予 了 局 部 排他 锁 ( 因为 所 授予 的 局 部 排他 锁 数 大 于 副本 数 ) 
但 是 如 果 这 样 的 话 ， 那 么 局 部 封锁 方式 就 是 错误 的 。 类 似 地 ， 由 于 s+x>n， 如 果 一 个 事务 在 A 
上 有 全 局 共享 锁 而 另 一 事务 在 4 上 有 全 局 排他 锁 ， 那么 必然 有 某 个 副本 同时 授予 了 局 部 共享 
锁 和 排他 锁 。 







分 布 式 死 锁 

在 事务 试图 获得 有 副本 的 数据 上 的 全 局 锁 时 ， 事 务 可 能 陷于 死 锁 的 情况 很 多 。 构 造 
一 个 全 局 等 待 图 并 检测 死 锁 的 方法 也 很 多 。 但 是 ， 在 分 布 式 环境 中 ， 使 用 超时 通常 更 简 
单 也 更 有 效 。 所 有 在 某 个 适当 的 时 间 内 未 完成 的 事务 都 被 认为 是 已 经 死 锁 并 被 回 滚 。 


一 般 情 况 下， 获得 全 局 共享 锁 所 需 的 消息 数 为 3s， 获 得 全 局 排他 锁 所 需 的 消息 数 为 3r。 与 
集中 封锁 方式 平均 每 个 锁 需 要 3 条 甚至 更 少 的 消息 相 比 ， 这 个 数字 看 起 来 似乎 比较 大 。 但 是 ， 

正如 下 面 两 个 针对 某 个 (s，z ) 选择 的 例子 所 说 明 的 那样 ， 有 的 参数 能 起 补偿 作用 。 
* 读 封锁 一 个 ; 写 封锁 所 有 。 这 里 ，s = 1 且 x = n。 获 得 全 局 排他 锁 代价 很 高 ， 但 全 局 共享 
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锁 至 多 需要 三 条 消息 。 此 外 ， 这 一 方式 有 一 个 胜 过 主 副 本 方式 的 地 方 : 尽管 后 者 允许 我 
们 避免 读 主 副本 时 的 消息 ， 但 “ 读 封锁 一 个 ”方式 则 只 要 事务 在 需要 读 的 数据 库 元 素 的 
任 一 副本 所 在 节点 上 就 能 够 避免 消息 。 因 此 ， 当 大 多 数 事务 是 只 读 事 务 但 读 元 素 X 的 事 
务 在 不 同 节点 上 发 起 时 ， 这 一 方式 比较 优越 。 一 个 例子 是 ， 分 布 式 数 字 图 书馆 在 文档 最 
经 常 访问 的 地 方 缓存 相应 文档 的 副本 。 
。 大 多 数 封锁 。 这 里 ，s=x = [+D/12] 。 看 起 来 似乎 不 管事 务 在 哪里 ， 这 一 系统 都 需要 大 
量 的 消息 。 但 是 ， 下 面 的 几 个 因素 使 这 一 方式 受到 欢迎 。 首 先 ， 许 多 网 络 系统 支持 广播 ， 
这 使 事务 可 以 发 出 请 求 元 素 X 上 局 部 锁 的 一 条 总 的 消息 ， 而 这 条 消息 将 被 所 有 节点 收 到 。 
类 似 地 ， 锁 的 释放 也 可 以 用 一 条 消息 来 实现 。 此 外 ，s 和 x 的 这 一 选择 能 提供 别 的 方式 所 
不 能 提供 的 好 处 : 即使 在 网 络 断 连 的 情况 下 这 一 方式 也 能 允许 部 分 的 操作 。 只 要 网 络 成 
分 中 包含 X 的 大 多 数 副 本 所 在 的 节点 ， 事 务 就 有 可 能 获得 X 上 的 锁 。 即 使 其 他 节点 在 断 连 
时 是 活 牙 的 ， 我 们 知道 它们 甚至 不 能 获得 X 上 的 共享 锁 ， 因 此 运行 在 不 同 网 络 成 分 中 的 
事务 不 可 能 产生 不 可 串 行 化 的 行为 。 
19.6.6 习题 
! 习题 19.6.1 ”我 们 给 出 了 如 何 用 局 部 的 共享 锁 和 排他 锁 分 别 创建 全 局 的 共享 锁 和 排他 锁 。 
你 怎样 用 相应 类 型 的 局 部 锁 创建 : 
* a) 全 局 的 共享 锁 、 排 他 锁 以 及 增 量 锁 。 
b) 全 局 的 共享 锁 、 排 他 锁 以 及 更 新 锁 。 
l c) 全 局 的 共享 锁 、 排 他 锁 以 及 每 种 类 型 的 意向 锁 。 
习题 19.6.2 ”假设 有 五 个 节点 ， 每 个 节点 上 有 数据 库 元 素 X 的 一 个 副本 。 这 些 节 点 中 有 一 
个 节点 P 对 X 而 言 占据 统治 地 位 ， 在 主 副 本 分 布 式 封锁 系统 中 将 被 用 作 X 的 主 节点 。 关 于 对 
X 的 访问 的 统计 数据 为 : 
a) 所 有 访问 中 有 50% 是 P 发 起 的 只 读 访问 。 
b) 其 他 四 个 节点 各 发 起 10% 的 访问 ， 这 些 访 问 都 是 只 读 的 。 
c) 其 余 10% 的 访问 需要 排他 的 访问 ， 而 五 个 节点 上 发 起 这 种 访问 的 概率 相等 ( 即 每 个 
节点 上 发 起 2% )。 
对 于 下 列 每 种 封锁 方式 ， 给 出 获得 一 个 锁 所 需要 的 平均 消息 数 。 假 设 所 有 请 求 都 被 同意 ， 
因而 不 需要 拒绝 的 消息 。 
* 3) 读 封锁 一 个 ; 写 封锁 所 有 。 
b) 大 多 数 封锁 。 
c) 主 副 本 封锁 ， 并 设 主 副本 位 于 P。 


19.7 长 事务 


有 这 样 一 类 应 用 ， 它 们 的 数据 可 以 用 数据 库 管理 系统 来 管理 ， 但 是 作为 数据 库 并 发 控制 机 
制 基础 的 多 个 短 事务 的 模型 对 它们 不 适合 。 本 节 中 我 们 将 讨论 一 些 这 类 应 用 的 例子 和 所 引起 的 
问题 。 然 后 ， 我 们 将 讨论 一 个 基于 “补偿 事务 ”的 解决 方法 ， 用 来 取消 已 经 提交 但 不 应 该 提交 
的 事务 的 影响 。 
19.7.1 长 事务 的 问题 

大 致 说 来 ， 长 事务 是 需要 太 长 时 间 因而 不 允许 它们 保持 其 他 事务 所 需要 的 锁 的 事务 。 根 据 
环境 ,“ 太 长 ”可 以 是 若干 秒 、 分 或 者 小 时 。 我 们 将 假设 “长 ”事务 至 少 要 几 分 钟 ， 也 可 能 几 
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小 时 。 可 能 出 现 长 事务 的 三 大 类 应 用 为 : 

1. 传统 的 DBMS 应 用 。 尽 管 通常 的 数据 库 应 用 主要 运行 短 事务 ， 但 许多 应 用 偶尔 需要 长 事 
务 。 例 如 ， 一 个 事务 可 能 检查 银行 的 所 有 账户 以 确定 总 的 余额 是 正确 的 。 另 一 个 事务 可 能 要 求 
偶尔 地 重 构 索 引 以 保持 效率 最 高 。 

2. 设计 系统 。 不 管 设计 的 东西 是 机 械 的 〈 如 汽车 )、 电 的 〈 如 微 处 理 器 ) 还 是 软件 系统 ， 
设计 系统 共同 的 一 个 要 素 是 ， 设 计 被 划分 为 一 系列 成 分 〔 例 如， 软件 项 目的 文件 )， 且 不 同 的 
设计 者 同时 工作 在 不 同 的 成 分 上 。 我 们 不 希望 两 个 设计 者 各 自 获 得 文件 的 一 个 副本 ， 通 过 编辑 
各 自 的 副本 来 修改 设计 ， 然 后 将 新 的 文件 版 本 写 回 ， 因 为 这 样 将 导致 一 组 修改 被 另 一 组 修改 覆 
盖 。 因 此 ， 检 出 检 入 系统 使 用 户 能 “ 检 出 ”文件 ， 并 在 修改 文件 后 “ 检 人 和 人 ”该 文件 ， 而 这 可 能 
是 在 若干 小 时 或 若干 天 后 。 即 使 第 一 个 设计 者 正在 修改 文件 ， 其 他 设计 者 仍 可 能 希望 阅读 该 文 
件 ， 以 获得 关于 其 内 容 的 信息 。 如 果 检 出 操作 相当 于 排他 锁 ， 那 么 一 些 合理 的 、 切 合 实际 的 动 
作 就 可 能 被 延迟 ， 可 能 长 达 数 天 。 

3. 工作 流 系 统 。 这 样 的 系统 涉及 过 程 集合 ， 有 的 过 程 由 软件 单独 执行 ， 有 的 过 程 需要 人 的 
交互 ， 而 有 的 过 程 可 能 只 涉及 人 的 活动 。 我 们 马上 要 给 出 办 公 室 中 报销 时 所 需 文书 工作 的 例子 。 
这 样 的 应 用 可 能 需要 执行 很 多 天 ， 并 且 在 此 期 间 某 些 数据 库 元 素 可 能 会 改变 。 如 果 系 统 为 事务 
中 涉及 的 数据 授 排他 锁 ， 那 么 其 他 事务 在 很 多 天 内 都 被 锁 在 外 面 。 

例 19.23 考虑 职员 报销 差旅费 的 问题 。 该 职员 希望 从 账户 A123 中 获得 相应 的 补偿 ， 付 账 
的 过 程 如 图 19-18 所 示 。 这 一 过 程 从 动作 4! 开 始 ， 即 出 差 者 的 秘书 在 线 地 填写 一 张 表格 ， 描 述 
旅途 、 付 账 的 账户 以 及 金额 。 我 们 假设 在 这 个 例子 中 账户 为 A123 而 金额 为 1000 美 元 。 





图 19-18 出 差 者 请 求 报销 差旅费 的 工作 流 图 


该 职员 的 收据 在 现实 中 被 送 到 部 门 的 相应 授权 机 构 ， 而 表格 则 在 线 传送 到 一 个 自动 的 动作 
42。 这 一 过 程 检查 付款 账户 A123 中 是 否 有 足够 的 钱 ， 并 为 这 笔 费用 预 留 出 钱 来 ; 也 就 是 说 ， 


ce s ç 


这 一 过 程 尝试 从 账户 中 减 去 1000 美 元 ,但 并 不 发 出 具有 此 人 金额 的 支票 。 如 果 该 账户 中 没有 足够 
的 钱 ， 则 此 事务 中 止 ， 并 假定 它 会 在 账户 中 金额 足够 或 改变 付款 账户 后 重启 。。 

动作 4; 由 部 门 主管 执行 ， 部 门 主 管 检查 收据 和 在 线 表 格 。 这 一 动作 可 能 发 生 在 下 一 天 。 如 
果 一 切 正常 ， 部 门 主管 就 批准 该 表格 ， 并 将 表格 和 实际 的 收据 一 起 送 给 公司 主管 ; 否则 事务 中 
止 。 或 许 出 差 者 需要 对 申请 做 茶 些 修改 并 重新 提交 表格 。 

动作 44 可 能 发 生 在 若干 天 以 后 。 在 这 一 动作 中 ， 公 司 主管 或 者 批准 该 申请 ， 或 者 拒绝 ， 或 
者 将 表格 交 给 一 个 助手 去 处 理 ， 而 此 助手 将 在 动作 4: 中 作出 决定 。 如 果 表 格 被 拒绝 ， 事 务 又 需 
要 终止 ， 表 格 也 需要 重新 提交 。 如 果 表 格 被 批准 ， 那 么 动作 4 中 将 书写 支票 并 完成 从 账户 
Al123 中 减 去 1000 美 元 的 操作 。 

但 是 ， 假 设 我 们 只 能 用 传统 的 封锁 方法 来 实现 这 一 工作 流 。 特 别 地 ， 由 于 账户 Al123 的 余 
额 可 能 由 整个 事务 修改 ,该 账户 必须 在 动作 42 时 以 排他 方式 封锁 ， 并 且 要 等 到 事务 中 止 或 动作 
4 完成 后 才能 释放 。 这 个 锁 可 能 需要 保持 若干 天 ， 而 在 这 段 时 间 内 只 有 负责 批准 报销 的 人 能 
查看 相应 的 情况 。 如 果 这 样 ， 那 么 其 他 费用 就 不 能 使 用 账户 A123， 即 使 是 尝试 性 的 也 不 允许 。 
男 一 方面 ， 如 果 对 账户 A123 的 访问 根本 不 加 以 控制 ， 那么 可 能 有 多 个 事务 同时 从 该 账户 中 预 
留 和 减 去 一 些 金额 ， 因 而 导致 透支 。 因 此， 我 们 必须 在 严格 的 长 期 封锁 和 无 控制 这 两 个 极端 之 
间 进 行 折 中 。 口 
19.7.2 saga ( 系列 记载 ) 

saga 是 构成 长 “事务 ”的 一 系列 动作 ， 例 如 例 19.23 中 的 那些 动作 。 也 就 是 说 ，saga 包 括 : 

1. 一 系列 动作 。 

2. 一 个 图 ， 其 结 点 是 动作 或 特殊 的 终止 及 完成 结 点 ， 而 弧 连 接 结 点 对 。 不 存在 从 两 个 特殊 
结 点 中 发 出 的 弧 ， 这 两 个 特殊 结 点 称 为 终止 结 点 。 

3. 关于 动作 从 哪个 结 点 开始 的 指示 ， 这 一 结 点 称 为 开始 结 点 。 

图 中 从 开始 结 点 到 终止 结 点 之 间 的 路 径 表示 可 能 的 动作 序列 。 通 向 中 止 结 点 的 路 径 表示 导 
致 整个 事务 回 滚 的 动作 序列 ， 这 些 动作 序列 不 应 改变 数据 库 。 通 向 完成 结 点 的 路 径 表 示 成 功 的 
动作 序列 ， 这 些 动作 对 数据 库 所 做 的 改变 都 将 保留 在 数据 库 中 。 

例 19.24 图 19-18 的 图 中 通 向 中 止 结 点 的 路 径 是 4, AD, A Az A3, Ai Az Ax 44 和 A4) Az Az Ag 
As。 通 向 完成 结 点 的 路 径 是 4A1 A2 As A4 Ae 和 A1 Az A A4 As hc。 注意 ， 在 这 个 例子 里 ， 图 中 没有 
环 ， 因 此 通 向 终止 结 点 的 路 径 数 是 有 限 的 。 但 是 ， 通 常情 况 下 图 中 可 能 有 环 ， 这 种 情况 下 路 径 
数 可 能 是 无 限 的 。 口 


saga 的 并 发 控制 通过 两 方面 的 能 力 来 管理 ; 

1. 可 以 认为 每 个 动作 自身 是 一 个 ( 短 ) 事务 ， 在 执行 时 使 用 传统 的 并 发 控制 机 制 ， 如 封锁 。 
例如 ，42 可 以 实现 为 在 账户 A123 上 ( 短暂 地 ) 获得 锁 ， 减 去 差旅费 单据 上 的 金额 ， 然 后 释放 
锁 。 这 样 的 封锁 可 以 防止 两 个 事务 同时 为 账户 余额 写 入 新 值 , 并 因而 丢失 第 一 个 写 操作 的 结果 ， 
使 钱 “ 魔 术 般 地 出 现 ”。 

2. 整个 事务 即 任何 通 向 终止 结 点 的 路 径 通 过 “补偿 事务 ”机 制 来 管理 , “补偿 事务 ”是 
Saga 在 各 个 结 点 上 的 事务 的 逆 。 它 们 的 工作 是 回 滚 已 提交 的 动作 ， 回 滚 方式 不 依赖 于 在 该 动作 
执行 时 刻 和 补偿 事务 执行 时 刻 之 间 数 据 库 上 发 生 了 什么 。 我 们 将 在 下 一 - 节 讨论 补偿 事务 。 





O 当然 ,出差 者 《肯定 不 在 斯 坦 福 工作 ) 不 会 不 恰当 地 使 用 另 一 个 政府 合同 ， 而 将 使 用 某 个 恰当 的 经 费 来 源 。 
我 们 必须 要 提 到 这 一 点 是 因为 ， 斯 坦 福 中 到 处 都 有 许多 政府 审计 员 ， 尽 管 他 们 并 不 懂 大 学 应 如 何 运作 。 
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19.7.3 补偿 事务 
在 saga 中 ， 每 个 动作 4 都 有 一 个 补偿 事务 ， 我 们 记 为 4-!。 直 观 地 说 ， 如 果 我 们 执行 4， 后 
来 又 执行 4-:， 那 么 所 产生 的 数据 库 状 态 同 4 和 A-:! 都 未 执行 前 一 样 。 更 形式 化 地 表示 : 
。 如果 D 是 任 一 数据 库 状 态 ，B182…B 是 动作 和 补偿 事务 的 任 一 序列 ( 不管 是 来 自 所 讨 
论 的 saga 还 是 来 自在 数据 库 上 合法 执行 的 任何 其 他 的 saga 或 事务 )， 那么 在 数据 库 状 态 D 
上 运行 序列 8B1B2…B, FAB BoB, A-! 所 产生 的 数据 库 状 态 一 样 。 







数据 库 状 态 什么 时 候 “ 一 样 ” 

在 讨论 补偿 事务 时 ， 我们 必须 小 心 对 待 使 数据 库 回 复 到 和 以 前 “一 样 ”的 状态 的 含义 。 
当 我 们 在 例 19.8 中 讨论 B 树 的 逻辑 日 志 时 已 经 领略 过 这 个 问题 。 在 那里 我 们 看 到 ， 如 果 我 们 
“撤销 ”一 个 操作 ，B 树 的 状态 可 能 和 执行 该 操纵 以 前 不 完全 相同 ， 但 就 B 树 上 的 访问 操作 
而 言 ， 它 们 是 等 价 的 。 更 一 般 地 讲 ， 执 行 一 个 动作 及 其 补偿 事务 或 许 不 能 将 数据 库 恢 复 到 
与 以 前 完全 相同 的 状态 ， 但 它们 的 差异 对 数据 库 所 支持 的 应 用 来 说 应 该 是 不 能 察觉 的 。 


如 果 saga 的 执行 通 向 中 止 结 点 ， 那 么 我 们 通过 为 每 个 已 执行 的 动作 执行 补偿 事务 来 回 滚 该 
saga， 补 偿 事务 执行 的 顺序 与 对 应 动作 执行 的 顺序 相反 。 根 据 上 面 描述 的 补偿 事务 的 性 质 ， 该 
saga 的 影响 被 消除 ， 而 数据 库 状态 就 和 saga 没 有 发 生 一 样 。19.7.4 节 中 将 解释 为 什么 能 保证 消 
除 影响 。 

例 19.25 ”我 们 来 考虑 图 19-18 中 的 动作 ， 看 一 看 4,~4s 的 补偿 事务 各 是 什么 。 首 先 ，4, 创 建 
一 个 在 线 文档 。 如 果 该 文档 存储 在 数据 库 中 ， 那 么 41-! 必 须 将 其 从 数据 库 中 删除 。 注 意 ， 这 一 
补偿 遵循 补偿 事务 的 基本 性 质 ， 如果 我 们 创建 文档 ， 执 行 任意 动作 序列 a ( 如 果 我 们 愿意 ， 其 
中 也 可 以 包括 删除 该 文档 )， 那 么 4 a A1-! 的 效果 和 Qa 的 效果 一 样 。 

4 的 实现 必须 非常 小 心 。 我 们 通过 从 账户 中 减 去 相应 金额 来 “ 预 留 ” 钱 。 这 些 钱 一 直 保 持 
被 消除 的 状态 ， 除 非 补 偿 事 务 4，-! 对 其 进行 恢复 。 如 果 通 常 管理 账户 的 规则 得 到 遵循 ， 那 么 我 
们 就 说 该 4:- ! 是 正确 的 补偿 事务 。 为 了 理解 这 一 点 ， 有 必要 考虑 一 个 类 似 的 事务 ， 对 这 个 事务 
来 说 ， 明 显 的 补偿 不 能 起 到 应 有 的 作用 ; 我 们 稍 后 在 例 19.26 中 考虑 这 样 的 一 个 例子 。 

动作 4: 、44 和 4s 都 包括 在 表格 上 添加 批准 意见 ， 因 此 它们 的 补偿 事务 可 以 将 批准 意见 删 
BR? 

最 后 ， 动 作 46 写 支票 ， 这 个 动作 没有 明显 的 补偿 事务 。 实 际 上 也 不 需要 ， 因 为 一 日 4 被 执 
行 ， 这 个 saga 就 不 能 回 深 了。 但 是 ， 从 技术 上 来 说 ，46 根 本 不 影响 数据 库 ， 因 为 支票 金额 由 4， 
减 去 。 如 果 需 要 在 更 宽 的 范围 内 考虑 “数据 库 ”， 这 时 像 竞 现 支票 这 样 的 结果 将 影响 数据 库 ， 
那么 我 们 必须 将 4s-! 设 计 为 首先 取消 支票 ， 然 后 写 封 信 给 领 款 人 要 求 归 还 钱 ;， 如果 所 有 补救 措 
施 都 失败 ， 则 恢复 账户 中 的 金额 ， 并 申报 由 于 呆 帐 而 造成 的 损失 。 口 


下 面 我 们 继续 看 例 19.25 中 隐 含 的 例子 ， 其 中 对 账户 的 改变 不 能 通过 一 个 逆向 的 改变 来 补 
偿 。 问 题 在 于 账户 通常 不 允许 为 负 。 

例 19.26 假设 事务 B 为 一 个 账户 中 增加 1000 美 元 ， 该 账户 原来 有 2000 美 元 ， 而 8-! 是 消除 同 
样 数额 的 钱 的 补偿 事务 。 此 外 ， 假 设 在 试图 从 账户 中 消除 钱 而 这 将 导致 余额 为 负 时 事务 失败 是 
合理 的 。 设 C 是 从 同一 账户 中 消除 2500 美 元 的 事务 ， 那 么 BC8-: 夫 C。 原 因 在 于 只 执行 C 时 会 失 








O 在 图 19-18 的 saga 中 ， 补 偿 这 些 动作 的 惟一 时 机 是 当 我 们 将 删除 表格 时 ， 但 补偿 事务 的 定义 要 求 它们 各 自 独 立 
地 工作 ， 不 管 其 他 补偿 事务 是 否 可 能 使 其 所 做 的 改变 变 得 无 关 紧 要 。 
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败 ， 账 户 中 保持 为 2000 美 元 ， 而 如 果 先 执行 B 再 执行 C， 则 账户 余额 为 500 美 元 ， 这 时 再 执行 B-! 
就 会 失败 。 

我 们 的 结论 是 ， 只 使 用 补偿 事务 不 能 同时 支持 在 账户 间 任 意 转 账 的 saga 和 不 允许 账户 余额 
为 负 的 规则 。 系 统 必须 进行 某 些 修改 ， 例 如 允许 账户 中 出 现 负 的 余额 。 
19.7.4 补偿 事务 发 挥 作用 的 原因 

如 果 两 个 动作 序列 将 任意 数据 库 状 态 D 转 换 为 同一 状态 ， 那 么 我 们 说 这 两 个 序列 是 等 价 的 
( 三 )。 补 偿 事 务 的 基本 假设 可 以 表述 为 : 

* 如 果 4 是 任 一 动作 ，o 是 合法 动作 和 补偿 事务 任 一 序列 ， 那 么 4a4 -!= oa。 
现在 ， 我 们 需要 证 明 ， 如 果 执 行 4i4…4, 这 一 saga 后 ， 再 以 相反 的 次 序 执行 它们 的 补偿 事务 
An-!1…A2-'41-!， 其 间 无 论 有 什么 样 的 动作 介入 ， 执 行 效果 与 动作 和 补偿 事务 都 没有 执行 过 的 
一 样 。 证 明 的 方法 是 对 n 进 行 归纳 。 

基础 : 如 果 n = 1， 那 么 A, 和 其 补偿 事务 41-! 之 间 的 动作 序列 形 如 A1 a 41-1。 根 据 补 偿 事 务 
的 基本 假设 ，A1 a Ah1-!= a; 即 此 saga 对 数据 库 状 态 没有 影响 。 

归纳 : 假设 这 一 陈述 对 长 度 不 超过 n - 1 个 动作 的 路 径 成 立 ， 考 虑 一 条 n 个 动作 的 路 径 ， 其 
后 跟随 着 反 序 的 补偿 事务 ， 中 间 可 以 有 任何 事务 介入 。 此 序列 的 形式 为 


A101 As02 an_1AnB A Yn 1 -y2 Az A" (19-1) 


其 中 所 有 和 希腊 字母 都 表示 零 个 或 多 个 动作 的 序列 。 根 据 补偿 事务 的 定义 ，4, 8 4,-!= 5。 因此 
(19-1) 等 价 于 


AiQ1 A2a2 ee An—10n—18 a1 Ap Yn- . -y AZ A,! ( 19-2 ) 
因为 在 〈19-2 ) APR An- 1 个 动作 ， 根 据 归 纳 假设 ，( 19-2 ) 式 等 价 于 
ala2 an-1gTn -1 73231 


也 就 是 说 ， 该 saga 及 其 补偿 事务 使 数据 库 状 态 跟 saga 从 未 发 生 一 样 。 
19.7.5 习题 
*! 习题 19.7.1 “和 印 载 ”软件 的 过 程 可 以 被 认为 是 安装 该 软件 的 动作 的 补偿 事务 。 在 安装 和 
种 载 的 一 个 简单 模型 中 ， 假 设 动作 包括 将 一 个 或 多 个 文件 从 源 ( 如 CD-ROM ) 装载 到 机 器 
的 硬盘 上 。 为 了 装载 文件 f， 我 们 从 CD-ROM 上 复制 /， 如 果 已 经 存在 路 径 名 相同 的 {， 则 取 
代 原 有 文件 。 为 了 区 别 路 径 名 相同 的 文件 ， 我 们 可 以 假设 每 个 文件 有 一 个 时 间 惟 。 
a) 装载 文件 /这 一 动作 的 补偿 事务 是 什么 ? 考虑 两 种 情况 ， 即 不 存在 相同 路 径 名 的 文 
件 和 存在 相同 路 径 名 的 文件 ' 这 两 种 情况 。 
b) 解释 为 什么 你 在 (a) 中 的 答案 能 保证 补偿 。 提 示 : 仔细 考虑 用 了 取代 f 后 又 用 具有 相 
同 路 径 名 的 另 一 文件 取代 f 的 情况 。 
习题 19.7.2 ”用 saga 描 述 预 订 航 班 座位 的 过 程 。 考 虑 顾客 可 能 查询 座位 但 并 不 预订 。 顾 客 
可 能 预订 座位 ， 后 来 却 又 取消 ， 或 者 在 规定 的 期 限 内 没有 付款 。 顾 客 可 能 乘坐 预订 的 航班 
也 可 能 不 乘坐 。 对 于 每 个 动作 ， 描 述 相应 的 补偿 事务 。 


19.8 小 结 


BRE: 由 未 提交 事务 写 人 主 存 缓冲 区 或 硬盘 上 的 数据 称 为 “ 脏 ” 数 据 。 
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1041 务 中 读 取 了 数据 的 事务 。 

。 严格 封锁 :严格 封锁 策略 要 求 事务 一 直 持 有 锁 ( 除 共 享 锁 外 )， 直 到 事务 提交 且 日 志 中 的 
提交 记录 已 刷新 到 磁盘 。 严 格 封锁 保证 事务 不 会 读 到 及 数据 ， 即 使 崩溃 和 恢复 后 回头 再 
看 时 也 如 此 。 

。 成 组 提交 : 如 果 确 信 日 志 记 录 到 达 磁 盘 的 顺序 和 写 人 顺序 一 样 ， 那 么 我 们 可 以 放松 严格 
封锁 中 要 求 提交 记录 到 达 磁 盘 这 一 条 件 。 这 时 仍 能 保证 不 存在 脏 读 ， 即 使 有 骨 溃 和 恢复 
发 生 。 

。 在 中 止 后 恢复 数据 库 状 态 ， 如 果 事 务 中 止 但 已 经 往 缓冲 区 中 写 人 了 值 ， 那 么 我 们 可 以 用 
日 志 或 磁盘 上 的 数据 库 拷贝 恢复 原来 的 值 。 如 果 新 值 已 到 达 磁 盘 ， 那 么 我 们 仍 可 以 用 日 
志 来 恢复 上 昌 值 。 

HHS: 对 于 大 的 数据 库 元 素 如 磁盘 块 来 说 ， 如 果 在 日 志 中 增 量 地 记录 新 值 和 旧 值 ， 
即 只 表示 变化 ， 那 么 我 们 可 以 节省 许多 空间 。 在 某 些 情况 下 ,通过 块 中 所 含 内 容 的 抽象 
逻辑 地 记录 改变 ， 这 使 我 们 在 事务 中 止 后 可 以 逻辑 地 恢复 状态 ， 即 使 数据 库 状 态 不 能 精 
确 恢 复 。 

“视图 可 串 行 性 : 如 果 事 务 写 人 的 值 在 没有 被 读 取 的 情况 下 就 被 覆盖 ,那么 对 调度 来 说 冲 
罕 可 串 行 性 这 一 条 件 过 于 严格 。 视 图 可 串 行 性 是 一 个 较 弱 的 条 件 ， 只 要 求 在 等 价 串 行 调 
度 中 每 个 事务 读 取 的 值 的 来 源 和 原始 调度 中 一 样 。 

。 多 重 图 ; 判断 视图 可 串 行 性 需要 构造 多 重 图 ， 图 中 的 弧 表 示 值 从 写 事务 到 读 事 务 的 传递 ， 
而 弧 对 表示 写 事务 不 能 介 人 写 事务 - 读 事务 联系 中 。 调 度 是 视图 可 串 行 化 的 ， 当 且 仅 当 从 
每 个 弧 对 中 选 出 一 条 弧 能 得 到 无 环 图 。 

RAR: 当 事 务必 须 等 待 另 一 事务 占有 的 资源 例如 锁 时 可 能 发 生死 锁 。 和 危险 在 于 ， 如 果 没 
有 适当 的 规划 ， 就 会 发 生 循环 等 待 ， 而 环 中 的 事务 都 不 能 取得 进展 。 

“等 待 图 : 为 每 个 等 待 中 的 事务 创建 一 个 结 点 ， 结 点 上 有 一 条 指向 该 事务 所 等 待 的 事务 的 
弧 。 存 在 死 锁 等 同 于 等 待 图 中 存在 一 个 或 多 个 环 。 如 果 我 们 维护 等 待 图 ， 并 中 止 将 导致 
和 死 锁 的 等 待 事务 中 的 任 一 个 ， 那 么 可 以 避免 死 锁 。 

* 通 过 资源 排序 避免 死 锁 : 要 求 事务 在 获得 资源 时 必须 按照 资源 的 某 种 字典 顺序 ， 这 可 以 

042 防止 死 锁 的 产生 。 

(RTH Ra AEE: 另 一 种 方法 是 维护 时 间 戳 ， 并 根据 请 求 资源 的 事务 比 占 有 资源 
的 事务 新 还 是 老 来 决定 事务 的 中 止 /等 待 。 在 等 待 -死亡 方案 下 ， 较 老 的 请 求 事务 等 待 ， 
而 较 新 的 请 求 事务 以 原 时 间 惟 回 滚 。 在 伤害 -等 待 方案 下 ， 较 新 的 事务 等 待 ， 而 较 老 的 事 
务 迫 使 占有 资源 的 事务 回 滚 并 释放 资源 。 

， 分 布 式 数据 : 在 分 布 式 数据 库 中 ， 数 据 可 以 水 平 划分 (一 个 关系 的 元 组 分 散 到 若干 节点 
上 ) 或 垂直 划分 (一 个 关系 模式 被 分 解 为 若干 模式 ， 这 些 模式 对 应 的 关系 位 于 不 同 节点 
上 )。 数 据 还 可 以 进行 复制 ， 因 此 一 个 关系 可 能 有 若干 完全 相同 的 副本 分 别 存 在 于 不 同 节 
点 上 。 

* 分布 式 事务 ; 在 分 布 式 数据 库 中 ， 一 个 逻辑 的 事务 可 能 由 多 个 成 分 构成 ， 每 个 成 分 在 一 
个 不 同 的 节点 上 执行 。 为 了 维护 一 致 性 ， 这 些 成 分 在 提交 还 是 中 止 该 逻辑 事务 上 必须 取 
得 一 致 。 

“两 阶段 提交 : 这 种 方式 支持 事务 成 分 关于 提交 或 中 止 的 一 致 决定 ， 即 使 在 面临 系统 崩 泪 
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时 也 能 产生 决定 。 在 第 一 阶段 中 , 协调 器 成 分 轮 询 各 成 分 是 希望 提交 还 是 希望 中 止 。 在 
第 二 阶段 中 ， 当 且 仅 当 所 有 成 分 都 表达 了 提交 的 愿望 时 ， 协 调 器 通知 所 有 成 分 提交 。 

。 分 布 式 封锁 : 如 果 事 务必 须 封 锁 存 在 于 多 个 节点 上 的 数据 库 元 素 ， 那 么 必须 用 某 种 方式 
来 协调 这 样 的 锁 。 在 集中 节点 方式 中 ， 一 个 节点 维护 所 有 元 素 的 锁 。 在 主 副本 方式 下 ， 
元 素 的 锁 由 其 主 节 点 维护 。 

*。 封 锁 有 副本 的 数据 ; 当 数 据 库 元 素 在 多 个 节点 上 有 副本 时 ， 元 素 的 全 局 锁 必 须 通 过 一 个 
或 多 个 副本 上 的 锁 来 获得 。 大 多 数 封 锁 方式 要 求 在 大 多 数 副 本 上 获得 读 锁 或 写 锁 以 非得 
全 局 锁 。 另 一 种 方法 是 ,我们 允许 通过 在 任 一 副本 上 获得 读 锁 来 获得 全 局 的 读 锁 ， 而 只 
有 在 获得 了 所 有 副本 上 的 写 锁 时 才 获 得 了 全 局 的 写 锁 。 ` 
‘sagas: 当 事 务 中 包括 持续 时 间 很 长 、 可 能 需要 几 小 时 或 几 天 的 步骤 时 ， 传 统 封 锁 机 制 可 
能 极 大 地 限制 并 发 。saga 由 一 个 动作 网 络 构成 ， 其 中 的 每 个 动作 可 能 通 向 一 个 或 多 个 其 
他 动作 ， 可 能 使 整个 saga 完 成 ， 也 可 能 使 saga 需 要 中 目 。 

。 补 偿 事 务 要 使 saga 有 意义 ， 每 个 动作 都 必须 有 一 个 补偿 动作 ， 该 补偿 动作 能 取消 原 动 
作对 数据 库 状态 的 影响 ， 并 且 不 影响 已 完成 的 saga 或 运行 中 的 saga 所 做 的 任何 其 他 动作 。 
如 果 saga 中 止 ， 那 么 对 应 的 补偿 动作 序列 将 被 执行 。 
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第 20 章 信息 集成 


伴随 着 现代 数据 库 系 统 的 演化 和 发 展 ， 信 息 集 成 ( information integration) 的 研究 领域 内 
涌现 出 大 量 的 新 应 用 。 这 些 应 用 是 把 存 贮 在 两 个 或 者 更 多 个 数据 库 〈 信 息 源 ，information 
source) 中 的 数据 提取 出 来 ， 建 立 一 个 包含 所 有 这 些 信 息 源 的 信息 的 大 数据 库 〈 该 数据 库 可 以 
是 虚拟 的 )。 于 是 ， 可 以 对 这 个 大 数据 库 中 的 数据 进行 整体 查询 。 这 里 的 信息 源 既 可 以 是 传统 
的 数据 库 ， 也 可 以 是 其 他 类 型 的 信息 ， 比 如 web 网 页 集合 。 

本 章 中 将 介绍 信息 集成 的 重要 概念 。 先 概括 给 出 集成 的 基本 方法 : 联邦 方式 ， 数 据 仓库 方 
式 和 协调 器 方式 。 然 后 分 析 包 装 器 ， 这 是 一 个 软件 ， 它 人 允许 信息 资源 符合 一 些 共享 的 模式 。 为 
了 有 效 操作 信息 集成 系统 ， 需 要 有 专门 的 查询 优化 技术 。 为 此 ， 将 简单 地 研究 基于 能 力 的 优化 
技术 ， 这 是 一 种 在 传统 DBMS 中 不 常见 的 重要 技术 。 

在 考虑 集成 信息 的 应 用 类 型 时 ， 特 别 重 要 的 是 “OLAP”( 联机 分 析 处 理 ，on-line analytic 
processing ) 查询 和 “数据 挖 据 ”( data-mining ) 查询 。 这 些 查询 类 型 是 所 有 数据 库 查询 中 最 复 
杂 的 类 型 。 有 一 种 专门 的 数据 库 体系 结构 ， 叫 做 “数据 立方 体 ”( data-cube )， 是 在 某 些 应 用 中 
被 用 于 组 织 集成 数据 的 一 种 方式 ， 以 便 有 助 于 支持 OLAP 和 数据 控 气 查询 。 


20.1 信息 集成 的 方式 


有 几 种 使 数据 库 或 其 他 分 布 式 信息 源 协 同 工 作 的 方式 。 在 本 节 中 ， 我 们 将 考虑 三 个 最 常用 
方法 : 

1. 联邦 数据 库 。 数 据 源 是 独立 的 ， 但 一 个 数据 源 可 以 访问 其 他 数据 源 以 提供 信息 。 

2. 数据 仓库 。 来 自 几 个 数据 源 的 数据 副本 存储 在 单一 数据 库 中 ， 称 其 为 (数据 ) 仓库 。 存 
储 在 数据 仓库 中 的 数据 在 存储 之 前 可 能 要 经 过 一 些 处 理 ， 例 如 ， 对 数据 进行 筛选 ， 将 关系 进行 
连接 或 聚集 。 数 据 仓库 定期 更 新 ， 可 能 需要 整整 一 夜 的 时 间 。 当 从 数据 源 拷贝 数据 时 ， 可 能 需 
要 以 某 种 方式 对 其 进行 转换 ， 以 使 所 有 的 数据 都 符合 数据 仓库 的 模式 。 

3. Mediation。 协 调 器 是 一 种 软件 组 件 ， 它 支持 虚拟 数据 库 ， 用 户 可 以 查询 这 个 虚拟 数据 
库 ， 就 像 它 已 物化 ( materialized) (已 实际 创建 ， 就 如 数据 仓库 一 样 )。 协 调 器 不 存储 任何 自己 
的 数据 ， 而 是 将 用 户 的 查询 翻译 成 一 个 或 多 个 对 数据 源 的 查询 。 然 后 ， 协 调 器 将 那些 数据 源 对 
用 户 查询 的 回答 进行 综合 处 理 ， 将 结果 返回 给 用 户 。 

我 们 将 依次 介绍 这 些 方 法 。 所 有 方法 的 一 个 关键 问题 是 当 数 据 从 信息 源 中 提取 出 来 时 使 用 
的 数据 转换 方法 。 在 20.2 节 ， 我 们 讨论 这 种 转换 器 的 结构 ， 称 其 为 包装 器 (wrapper) 或 提取 器 
(extractor)。20.1.1 节 首先 介绍 包装 器 要 解决 的 一 些 问题 。 

20.1.1 信息 集成 的 问题 

无 论 我 们 选用 何 种 集成 结构 ， 当 试图 给 不 同 数据 源 中 的 原始 数据 赋予 一 些 含义 时 ， 总 会 产 
生 一 些微 妙 问 题 。 我 们 把 涉及 同一 类 数据 但 在 处 理 方法 上 存在 各 种 差异 的 数据 源 (集合 ) 称 作 
措 构 数据 源 。 一 个 扩充 的 例子 将 有 助 于 揭示 这 些 问 题 。 

20.1 Aardvark 汽 车 公司 有 1000 位 代理 商 ， 每 一 位 代理 商都 维护 其 库存 汽车 数据 库 。 
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Aardvark 想 创建 一 个 集成 数据 库 ， 以 包含 所 有 1000 个 数据 源 的 数据 。 集 成 数据 库 能 帮助 代理 
商 找 到 库存 中 没有 的 某 一 型 号 汽车 。 公 司 分 析 人 员 也 可 将 其 用 于 预测 市 场 和 调整 产量 以 提供 销 
量 最 好 的 型 号 。 

但 是 ， 这 1000 位 代理 商 并 不 使 用 相同 的 数据 库 模式 。 例 如 ， 一 位 代理 商 可 能 将 有 关 汽 车 的 
信息 存储 在 单一 关系 中 ， 其 形式 如 下 : 

Cars(serialNo, model, color, autoTrans, cdPlayer, ...) 
对 每 一 个 可 能 的 选项 有 一 个 相应 的 布尔 值 与 其 对 应 。 另 一 位 代理 商 可 能 使 用 另 一 个 模式 ， 在 这 
个 模式 中 ， 选 项 分 开 存储 在 第 二 个 关系 中 ， 如 


Autos(serial, model, color) 


Options(serial, option) 
注意 ， 不 仅 模式 存在 差异 ， 而 且 很 显然 ， 等 价 的 名 称 也 发 生 了 改变 : Cars 成 为 Autos ， 
serialNo 变 成 serial。 

使 事情 变 得 更 为 糟糕 的 是 ， 不 同 数据 库 中 的 数据 昌 有 相同 含义 , 但 以 不 同方 式 表示 。 

1. 数据 类 型 不 同 。 序 列 号 可 在 一 个 数据 源 中 用 变 长 字符 串 表示 ， 而 在 另 一 个 数据 源 中 用 定 
长 字符 串 表 示 。 定 长 字符 串 的 长 度 也 可 能 不 同 ， 而 且 一 些 数 据 源 可 能 使 用 整数 表示 序列 号 ， 而 
不 用 字符 串 。 

2. 值 不 同 。 同 一 概念 在 不 同 数 据 源 中 用 不 同 常数 表示 。 黑 色 在 一 个 数据 源 中 可 能 用 一 个 整 
数 代 码 表示 ， 肌 在 且 一 个 数 撕 源 中 用 字符 趾 BLACK 表 示 ， 在 第 三 个 数据 源 中 用 BL 表示 。 更 炎 
糕 的 情况 是 ，BL 在 另 一 个 数据 源 中 可 能 表示 “ 蓝 ”。 

3. 语义 不 同 。 许 多 重要 术语 在 不 同 数据 源 中 有 不 同 的 解释 。 位 代理 商 可 能 在 关系 Cars 
中 包含 有 关卡 车 的 信息 ， 而 另 一 位 代理 商 在 关系 cars 中 只 存储 小 汽车 信息 。 一 位 代理 商 可 能 
区 分 车 站 货车 与 小 型 货车 ， 而 另 一 位 代理 商 则 不 区 分 。 

4. 数据 丢失 。 一 个 数据 源 可 能 不 记录 所 有 或 大 部 分 数据 源 提供 的 类 型 信息 。 例 如 ， 一 位 代 
理 商 根本 不 记录 颜色 。 为 了 处 理 丢 失 的 数据 ， 有 时 我 们 可 以 使 用 NULL 或 默认 值 。 但 是 ， 现 在 
的 趋势 是 使 用 “ 半 结 构 化 ”数据 模型 ( 如 在 4.6 节 提 到 的 那 
样 ) 来 表示 可 能 不 完全 一 致 的 集成 数据 。 但 符合 得 可 能 不 


会 那么 精确 。 
在 创建 集成 数据 库 之 前 , 对 数据 源 之 间 的 每 一 种 不 一 至 
都 需要 进行 一 种 变换 。 口 


20.1.2 联邦 数据 库 系统 

集成 几 个 数据 库 的 最 简单 结构 可 能 是 实现 需要 交互 的 所 
有 数据 库 对 之 间 的 一 对 一 连接 。 这 些 连接 允许 一 个 数据 库 系 
统 Dj 以 另 一 个 数据 库 系 统 D; 能 理解 的 术语 来 查询 D,。 这 种 结 
构 的 问题 是 ， 如 果 n 个 数据 库 中 的 每 一 个 都 需要 与 其 他 n - 1 
个 数据 库 进 行 交互 ， 则 我 们 必须 写 n(n - 1) 条 代码 以 支持 系 M201 四 个 数据 库 的 联邦 需要 
统 之 间 的 查询 。 如 图 20-1 所 示 。 在 这 个 图 中 ， 我 们 看 到 四 个 12 个 组 件 以 相互 翻译 查询 





O 大 多 数 真正 的 汽车 公司 都 有 适当 的 类 似 工具 ， 且 它们 的 发 展 史 可 能 会 与 我 们 的 例子 有 所 不 同 。 例 如 ， 可 能 会 
首先 有 一 个 集中 数据 库 ， 而 后 代理 高 能 够 将 相关 数据 下 载 到 他 们 自己 的 数据 库 中 。 但 是 ， 这 是 目前 很 多 产业 
公司 试图 采用 的 结构 示例 。 


数据 库 形 成 了 一 个 联邦 。 这 四 个 数据 库 中 每 一 个 都 需要 三 个 组 件 ， 以 存 取 其 他 三 个 数据 库 。 
但 是 ， 在 某 些 情况 下 ， 联 邦 系统 可 能 是 最 容易 建立 的 ， 特 别 是 在 数据 库 之 间 的 通信 本 来 就 
受 限 时 。 下 面 用 一 个 例子 说 明 翻 译 组件 是 如 何 工作 的 。 1049 


例 20.2 ”假设 Aardvark 汽 车 代理 商 想 共 享 商品 目录 ， 但 是 每 一 位 代理 商 只 需要 查询 几 个 本 
地 代理 商 的 数据 库 ， 以 查看 他 们 是 否 有 自己 需要 的 汽车 。 更 具体 一 些 ， 考 虑 代理 商 1， 他 有 一 
个 关系 


NeededCars (model, color, autoTrans)} 


这 个 关系 的 元 组 表示 客户 的 汽车 需求 ， 客 户 通过 型 号 、 颜 色 和 是 否 需要 自动 变速 器 来 表达 他 们 
的 这 种 需求 。 代 理 商 2 将 目录 存储 在 例 20.1 所 讨论 的 有 两 个 关系 的 模式 中 : 


Autos (serial, model,color) 


Options (serial, option) 


代理 商 1 写 了 一 个 应 用 程序 ， 它 远程 查询 代理 商 2 的 关系 ， 以 查找 与 Neededcars 中 描述 的 
每 一 辆 汽车 匹配 的 汽车 。 图 20-2 是 这 个 程序 的 框图 ， 瞬 人 式 SQL 语 句 查找 所 要 汽车 。 这 个 程序 
的 目标 是 用 艇 入 式 SQL 语句 表示 对 代理 商 2 数据 库 的 远程 查询 ， 查 询 结果 返回 给 代理 商 1。 我 们 
使 用 标准 SQL 规范 ， 在 一 个 变量 前 加 一 个 冒号 ， 表 示 从 数据 库 中 检索 到 的 常数 。 

这 些 查询 是 针对 代理 商 2 的 模式 而 写 的 。 如 果 代 理 商 1 还 想 问 代理 商 3 相 同 问题 ， 而 代理 商 3 
使 用 的 是 例 20.1 中 讨论 的 第 一 个 模式 ， 只 有 单一 关系 


Cars(serialNo, model, color, autoTrans,...) 
查询 将 看 起 来 大 不 相同 。 但 是 每 一 个 查询 适用 于 它 所 针对 的 数据 库 。 CJ 


for(each tuple (:m, :c, :a) in NeededCars) { 
if(:a= TRUE) { /* automatic transmission wanted */ 
SELECT serial 
-FROM Autos, Options 
WHERE Autos.serial = Options.serial AND 
Options.option = ’autoTrans’ AND 
Autos.model = : AND 
Autos.color = :c; 
} . 
else { /* automatic transmission not wanted */ 
SELECT serial 
FROM Autos . 
WHERE Autos.model = :m AND 
Autos.color = :c AND 
NOT EXISTS ( 
SELECT * 


FROM Options 
WHERE serial = Autos.serial AND 
option = ‘autoTrans’ 





图 20-2 代理 商 1 为 需要 的 汽车 查询 代理 商 2 


20.1.3 数据 仓库 
在 数据 仓库 集成 结构 中 ， 来 自 几 个 数据 源 的 数据 被 抽取 出 来 ， 合 成 一 个 全 局 模式 。 然 后 ， 
数据 存储 在 数据 仓库 中 ， 这 在 用 户 看 来 与 普通 数据 库 无 异 。 组 织 方式 如 图 20-3 所 示 ， 尽 管 数据 
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源 可 能 多 于 图 中 所 示 的 两 个 。 





图 20-3 数据 仓库 存储 独立 数据 库 中 的 集成 信息 


一 旦 数据 存储 在 数据 仓库 中 , 用 户 就 可 以 提出 查询 , 正如 他 们 向 任何 数据 库 提 出 查询 一 样 。 
为 一 方面 ， 通 常 不 允许 用 户 对 数据 仓库 进行 更 新 ， 因 为 这 些 更 新 不 能 反映 在 基本 数据 源 中 ， 并 
且 可 以 导致 数据 仓库 与 数据 源 不 一 致 。 

” ”数据 仓库 中 数据 的 构造 方法 至 少 有 三 种 : 

1. 数据 仓库 根据 数据 源 中 的 当前 数据 进行 周期 性 地 重建 。 这 种 方法 是 最 常用 的 ， 数 据 重 建 
每 夜 进行 一 次 〈 当 系 统 可 以 关闭 时 进行 ， 所 以 在 数据 仓库 重建 时 不 能 再 查询 )， 或 间隔 时 间 更 
长 一 些 。 这 种 方法 的 主要 缺点 在 于 需要 关闭 数据 仓库 ， 而 且 重建 数据 仓库 需要 的 时 间 可 能 长 于 
一 “ 夜 "。 对 某 些 应 用 来 说 ， 另 一 个 缺点 是 数据 仓库 中 的 数据 可 能 会 非常 过 时 。 

2. 根据 自 上 次 数据 仓库 被 更 新 以 后 对 数据 源 所 做 的 更 新 ， 对 数据 仓库 中 的 数据 进行 周期 性 
地 更 新 〈 例如 每 个 晚上 )。 这 种 方法 可 能 只 与 少量 数据 有 关 ， 当 数据 仓库 需要 在 很 短 的 时 间 内 
进行 更 新 ， 而 数据 仓库 很 大 时 ( 使 用 多 个 GB 或 TB 的 数据 仓库 )， 这 很 重要 。 缺 点 是 计算 数据 ， 
仓库 中 的 变化 ， 即 一 种 被 称 为 增 量 更 新 的 过 程 ， 与 简单 地 重新 构造 数据 仓库 的 算法 相 比 ， 前 者 
较 复 杂 。 

3. 对 一 个 或 多 个 数据 源 中 的 每 一 次 变化 或 一 组 变化 ， 数 据 仓库 立即 做 出 相应 变化 。 这 种 方 
法 需要 太 多 的 通信 和 处 理 ， 只 适用 于 小 的 且 底层 数据 源 变 化 缓慢 的 数据 仓库 。 但 是 ， 这 是 一 种 
研究 课题 ， 而 且 如 果 这 种 数据 仓库 实现 方法 能 成 功 , 则 将 会 有 很 多 重要 应 用 ， 例 如 在 数据 仓库 
中 进行 自动 股票 交易 。 

例 20.3 为 简单 起 见 ， 假 设 在 Aardvark 系 统 中 只 有 两 位 代理 商 ， 他 们 分 别 使 用 模式 


Cars(serialNo, model, color, autoTrans, cdPlayer,...) 


和 
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Autos(serial, model, color) 
Options(serial, option) 


我 们 想 建立 具有 以 下 模式 的 数据 仓库 


AutosWhse(serialNo, model, color, autoTrans, dealer) 


即 全 局 模式 与 第 一 位 代理 商 使 用 的 模式 相似 ， 但 是 我 们 只 记录 具有 自动 变速 器 的 选项 ， 并 且 我 
们 包含 一 个 属性 表明 哪 一 位 代理 商 拥有 这 辆 汽车 。 

从 两 位 代理 商 的 数据 库 中 抽取 数据 并 存 人 全 局 模式 的 软件 可 以 用 SQL 查询 来 写 。 为 第 一 位 
代理 商 写 的 查询 很 简单 : 


INSERT INTO AutosWhse(serialNo, model, color, 
autoTrans, dealer) 
SELECT serialNo, model, color, autoTrans, ’dealer1’ 
FROM Cars; 


为 第 二 个 代理 商 写 的 数据 抽取 器 比较 复杂 ， 因 为 我 们 必须 决定 一 个 给 定 的 小 汽车 是 否 有 自 
动 变速 器 。 我 们 使 用 'yea” 和 “no” 作 为 属性 autoTrans 的 值 ， 含 义 很 明白 。 这 个 抽取 器 的 
SQL 代码 如 图 20-4 所 示 。 


INSERT INTO AutosWhse(serialNo, model, color, 
autoTrans, dealer) 
SELECT serial, model, color, ’yes’, ’dealer2’ 
FROM Autos, Options 
WHERE Autos.serial = Options.serial AND 
option = ’autoTrans’; 


INSERT INTO AutosWhse(serialNo, model, color, 
autoTrans, dealer) 
SELECT serial, model, color, ’no’, ‘dealer2? 
FROM Autos 
WHERE NOT EXISTS ( 
SELECT * 
FROM Options 
WHERE serial = Autos.serial AND 
option = :autoTrans， 





图 20-4 将 代理 商 2 的 数据 转换 到 数据 仓库 中 的 抽取 器 


在 这 个 简单 例子 中 ， 从 数据 源 中 抽取 的 数据 的 合成 器 为 空 。 因 为 数据 仓库 是 从 每 一 个 数据 
源 中 抽取 的 关系 的 并 ， 所 以 我 们 显示 了 数据 是 直接 加 载 到 数据 仓库 中 的 。 但 是 ， 许 多 数据 仓库 
对 它们 从 每 一 个 数据 源 中 抽取 的 关系 进行 操作 。 例 如 ， 将 从 两 个 数据 源 中 抽取 的 关系 进行 连接 
后 ， 再 将 结果 放 和 人 数据 仓库 ; 或 者 我 们 可 能 将 从 几 个 数据 源 中 抽取 的 关系 进行 并 操作 ， 而 后 对 
这 个 并 的 数据 进行 聚集 。 更 普遍 的 是 ， 从 每 一 个 数据 源 可 以 抽取 几 个 关系 ,不同 的 关系 以 不 同 
的 方式 组 合 。 
20.1.4 协调 器 

协调 器 支持 虚拟 视图 或 视图 集合 ， 它 集成 几 个 数据 源 的 方式 与 数据 仓库 中 物化 关系 集成 数 
据 源 的 方式 很 相似 。 但 是 ， 因 为 协调 器 不 存储 任何 数据 ， 其 机 制 与 数据 仓库 机 制 大 相 径 庭 。 图 
20-5 表 示 一 个 协调 器 集成 两 个 数据 源 。 与 数据 仓库 结构 类 似 ， 数 据 源 通常 多 于 两 个 。 首 先 ， 用 
户 向 协调 器 提出 一 个 查询 。 因 为 协调 器 没有 自己 的 数据 ， 必 须 从 它 的 数据 源 中 得 到 相应 数据 ， 
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并 使 用 这 些 数据 以 形成 对 用 户 查询 的 回答 

因而 ， 我 们 在 图 20-5 中 看 到 ， 协调 器 向 每 一 个 包装 器 发 送 查 询 ， 包装 器 再 依次 向 相应 数据 
源 发 送 查 询 。 事 实 上 ， 协 调 器 可 向 一 个 包装 器 发 送 几 个 查询 ， 还 可 不 查询 所 有 包装 器 。 结 果 返 
回 协调 器 进行 组 合 。 我 们 没有 像 在 图 20-3 中 的 数据 仓库 图 那样 画 出 一 个 显 式 的 合成 器 ， 因 为 使 
用 协调 器 时 ， 将 来 自 数据 源 中 的 结果 进行 组 合 由 协调 器 来 完成 。 





图 20-5 协调 器 和 包装 器 将 查询 翻译 成 的 数据 源 的 查询 形式 ， 并 将 应 答 进行 组 合 


例 20.4 ”我 们 考虑 与 例 20.3 相 似 的 情况 ， 但 是 使 用 协调 器 。 即 协调 器 将 同样 的 两 个 汽车 数 
据 源 集成 为 一 个 单一 关系 视图 ， 其 模式 为 : 


AutosMed(serialNo, model, color, autoTrans, dealer} 


假设 用 户 提出 以 下 查询 ， 询 问 协调 器 有 关 红 色 汽车 的 信息 ; 


SELECT serialNo, model 

FROM AutosMed 

WHERE color = ’red’; 

协调 器 对 用 户 的 这 个 查询 作出 反应 ， 可 能 会 将 同样 的 查询 转发 到 两 个 包装 器 。 设 计 和 实现 
处 理 类 似 查询 的 包装 器 的 方法 是 202 节 的 主题 。 对 更 复杂 的 情况 ， 查询 组 件 的 翻译 和 分 布 是 必 
要 的 ， 但 是 在 这 种 情况 下 ， 翻 译 工作 可 由 包装 器 独立 完成 。 

代理 商 1 的 包装 器 将 这 个 查询 翻译 成 符合 代理 商 模式 的 形式 ， 该 模式 是 : 


Cars(serialNo, model, color, autoTrans, cdPlayer,...) 
一 种 合适 的 翻译 是 : 

SELECT serialNo, model 

FROM Cars 

WHERE color = ’red’; 


对 这 个 查询 的 回答 是 serialNo-mode1 对 的 集合 ， 这 个 集合 由 第 一 个 包装 器 返回 到 协调 


同时 ， 代 理 商 2 的 包装 器 将 同一 个 查询 翻译 成 其 模式 ， 即 
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Autos(serial, model, color) 
Options(serial, option) 


适合 经 销 商 2 的 查询 翻译 几乎 与 前 面 的 相同 


SELECT serial, model 
FROM Autos 
WHERE color = ’red’; 


与 经 销 商 1 查询 翻译 不 同 的 仅仅 是 被 查询 关系 和 一 个 结果 属性 的 名 字 。 第 二 个 包装 器 将 一 个 
serial-mode1 对 的 集合 返回 给 协调 器 ， 并 可 能 要 将 serial-mode1 对 的 serial 转 变 为 集成 
模式 中 所 用 的 serialNo-model。 

协调 器 可 使 用 这 些 集合 的 并 , 并 将 结果 返回 给 用 户 。 因 为 我 们 期 望 序列 号 是 一 个 “全 局 键 ”， 
两 辆 汽车 即使 在 不 同 的 数据 库 中 ， 也 不 存在 相同 序列 号 ， 所 以 我 们 可 以 采用 包 (bag) 的 并 ， 
假设 不 会 有 重复 。 口 


协调 器 用 于 回答 查询 的 可 选 方法 还 有 几 种 ， 在 例 20.4 中 未 加 说 明 。 例 如 ， 协 调 器 可 以 向 一 
个 数据 源 提 出 查询 ， 查 看 结果 ， 然 后 根据 返回 结果 决定 下 一 个 或 几 个 要 提出 的 查询 。 如 当 用 户 
查询 查找 是 否 有 Aardvark“Gobi” 型 号 的 蓝 色 赛车 时 ， 就 适用 这 种 方法 。 第 一 个 查询 可 询问 代 
理 商 1， 且 只 有 当 结 果 非 空 时 ， 才 向 代理 商 2 发 出 一 个 查询 。 
20.1.5 习题 
! 习题 20.1.1 计算 机 公司 4 将 它 所 卖 的 PC 型 号 存储 在 以 下 的 模式 中 ; 


Computers(number, proc, speed, memory, hd) 
Monitors(number, screen, maxResX, maxResY) 


BIg, Computers FHGH (123, PIII, 500, 128, 40) 的 意思 是 型 号 123 有 1000 MHz 
奔腾 -TI 处 理 器 ，128M 内 存 ，40G 硬 盘 。Monitors 中 的 元 组 (456，19，1600，1200 ) 意思 是 
型 号 456 有 一 19 英 寸 的 显示 器 ， 最 大 分 辨 率 为 1600 x 1200, 

计算 机 公司 B 只 卖 完 整 的 系统 ， 包 括 一 台 计 算 机 和 一 台 显示 器 。 它 的 模式 是 


Systems(id, processor, mem, disk, screenSize) 


属性 processor 记 录 运 行 速度 ,以 整数 表示 ,不 记录 处 理 器 类 型 ( 如 奔腾 -II ) ,也 不 记录 显示 器 
的 最 大 分 辩 率 。 属 性 jd、mem 和 di sk 与 公司 4 中 的 number、 memory 和 hg 类似, 但 是 硬盘 大 
小 以 MB 而 不 是 以 GB 来 度量 。 
a) 如 果 公 司 4 想 把 公司 B 中 相关 项 目的 信息 插入 它 的 关系 中 ， 应 使 用 什么 样 的 SQL 语 
句 ? 
* b) 如 果 公司 B 想 向 Systems 捅 人 尽 可 能 多 的 、 有 关 用 4 销售 的 计算 机 和 显示 器 组 装 的 
系统 的 信息 ， 用 什么 样 的 SQL 语句 最 便于 获得 这 样 的 信息 ? 
*! 习题 20.1.2 ”提出 一 个 全 局 模式 ， 人 允许 我 们 维护 尽 可 能 多 的 有 关 习 题 20.1.1 中 的 公司 4 和 有 
销售 的 产品 的 信息 。 
习题 20.1.3 ” 写 SQL 查 询 ， 从 公司 4 和 3 的 数据 中 搜集 信息 ， 并 将 这 些 信息 放 人 习题 20.1.2 
的 全 局 模式 中 。 如 果 你 愿意 ， 可 以 参考 习题 解答 中 给 出 的 全 局 模式 。 
习题 20.1.4 假设 习题 20.1.2 中 的 全 局 模式 (或 解答 习题 中 的 模式 ， 如 果 你 不 喜欢 自己 的 答 
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案 ) HEAR, Cute Ab ER AA 1500 MHz 处 理 器 速度 的 任何 计算 机 所 能 使 用 的 硬 
盘 最 大 容量 这 个 查询 ? 

! 习题 20.1.5 提出 两 个 其 他 模式 ， 计 算 机 公司 可 能 使 用 它们 存储 如 习题 20.1.1 中 的 数据 。 如 
何 将 你 的 模式 集成 为 习题 20.1.2 中 的 全 局 模式 ? 

! 习题 20.1.6 在 例 20.3 中 我 们 说 到 了 代理 商 1 使 用 的 一 个 关系 cars， 它 有 一 个 属性 
autoTrans， 这 个 属性 只 有 值 “yes” 和 “no”。 因 为 这 些 值 与 全 局 模式 中 那个 属性 的 值 
相同 ， 因 此 关系 Autos1 的 建立 特别 容易 。 假 设 属性 cars .automrans 的 值 为 整数 ，0 意 
味 着 没有 自动 变速 器 ，i > 0 意味 着 小 汽车 有 一 个 ; 速 自 动 变速 器 。 说 明 从 cars 到 Autos- 
whse 的 翻译 如 何 用 SQL 查询 实现 。 
习题 20.1.7 例 20.4 中 的 协调 器 如 何 翻译 如 下 查询 : 

* a) 查找 有 自动 变速 器 的 汽车 的 序列 号 。 
b) 查找 没有 自动 变速 器 的 汽车 的 序列 号 。 
! c) 查找 代理 商 1 销售 的 蓝 色 汽车 的 序列 号 。 
习题 20.1.8 ” 找 几 个 在 线 书 商 的 网 页 ， 看 看 你 能 找到 多 少 有 关 这 本 书 的 信息 。 你 将 如 何 把 
这 些 信 息 组 合成 一 个 适用 于 数据 仓库 或 协调 器 的 全 局 模式 ? 


20.2 基于 协调 器 系统 的 包装 器 


在 如 图 20-3 所 示 的 数据 仓库 系统 中 ， 数 据 源 抽取 器 包括 : 

1. 一 个 或 多 个 内 置式 查询 ， 它 们 在 数据 源 中 执行 , 为 数据 仓库 提供 数据 。 

2. 合适 的 通信 机 制 ， 使 包装 器 能 ， 

(a) 向 数据 源 传 送 特定 查询 ; 
(b) 接收 来 自 数据 源 的 响应 ; 
(c) 向 数据 仓库 传送 信息 。 

如 果 数 据 源 是 SQL 数据 库 ， 如 20.1 节 我 们 使 用 的 例子 ， 则 内 置 的 对 数据 源 的 查询 可 以 是 
SQL 查询 。 对 于 不 是 数据 库 系 统 的 数据 源 , 查询 可 以 是 以 任何 适用 于 数据 源 的 语言 书写 的 操作 。 
例如 ， 包 装 器 可 能 填充 一 个 网 页 中 的 在 线 表 格 ， 使 用 在 线 书 目 服务 系统 自身 的 特定 语言 发 送 一 
个 查询 ， 或 使 用 其 他 各 种 符号 来 提出 查询 。 

但 是 协调 器 系统 需要 比 数 据 仓库 系统 更 复杂 的 包装 器 。 包 装 器 必须 能 够 从 协调 器 接收 各 种 
查询 ， 并 将 各 个 查询 翻译 成 数据 源 的 术语 。 当 然 ， 包 装 器 必须 将 结果 传送 到 协调 器 ， 就 像 是 数 
据 库 系统 中 的 包装 器 与 数据 仓库 通信 一 样 。 在 本 节余 下 的 部 分 我 们 将 研究 构造 适用 于 协调 器 的 
灵活 的 包装 器 。 

20.2.1 查询 模式 的 模板 

连接 协调 器 与 数据 源 的 包装 器 的 系统 设计 方法 是 将 协调 器 可 能 要 使 用 的 查询 分 类 , 成 为 
模板 ， 它 们 是 具有 代表 常数 的 参数 的 查询 。 协 调 器 提供 常数 ， 包 装 器 执行 具有 给 定常 数 的 
查询 。 用 一 个 例子 来 说 明 这 种 思想 ， 在 例子 中 ， 符 号 7 => 3 表示 模板 7 由 包装 器 变 成 源 查 询 
5 的 思想 。 

例 20.5 假设 我 们 想 从 代理 商 1 的 数据 源 构造 一 个 包装 器 ， 这 个 数据 源 的 模式 为 


Cars(serialNo, model, color, autoTrans, cdPlayer, ....) 


包装 器 由 具有 模式 


AutosMed( serialNo, model, color, autoTrans, dealer) 


的 协调 器 使 用 。 考 虑 协调 器 如 何 查询 包装 器 以 获得 给 定 颜色 的 汽车 。 无 论 颜 色 是 什么 ， 如 果 能 
用 参数 $c 代表 表示 那 种 颜色 的 代码 ， 我 们 就 能 使 用 图 20-6 所 示 的 模板 。 


SELECT * 
FROM AutosMed 
WHERE color = ’$c’; 


=> 
SELECT serialNo, model, color, autoTrans, ’dealer1’ 
FROM Cars 
WHERE color = ’$c’; 


图 20-6 描述 对 固定 颜色 汽车 的 查询 的 包装 器 模板 


同样 ， 这 个 包装 器 可 能 有 另 一 个 模板 ， 它 只 规定 参数 sm 表示 一 种 型 号 ， 还 可 有 另 一 个 模 
板 ， 它 只 指明 是 否 需 要 一 个 自动 变速 器 ， 等 等 。 在 这 种 情况 下 ， 如 果 人 允许 查询 指定 三 个 属性 中 
的 任何 一 种 : model、color 和 autoTrans， 共 有 八 种 选择 。 总 的 来 说 ， 如 果 我 们 可 指定 4 个 
属性 ” ， 则 将 有 >" 种 模板 。 如 果 有 查找 某 一 类 型 汽车 总 数 的 查询 ， 或 是 否 存 在 某 一 类 型 的 汽车 ， 
则 需要 其 他 模板 。 尽 管 模板 数目 将 会 变 得 异常 巨大 ， 但 是 车 设计 包装 器 时 使 用 更 多 的 技巧 ， 也 
有 可 能 获得 某 些 简化 ， 如 我 们 将 在 20.2.3 节 开始 讨论 的 那样 。 

20.2.2 包装 器 生成 器 

定义 包装 器 的 模板 必须 转变 成 包装 器 自己 的 代码 。 创 建 包 装 器 的 软件 称 为 包装 器 生成 器 。 
从 本 质 上 说 ， 它 与 分 析 器 生成 器 〈 如 YACC ) 类 似 ; 分 析 器 生成 器 从 高 级 规范 说 明 中 产生 编译 
器 的 组 件 。 生 成 过 程 如 图 20-7 所 示 ， 当 一 个 规范 说 明 ( 即 模板 集合 ) 输入 包装 器 生成 器 时 ， 这 
个 过 程 就 开始 了 。 





来 自 协调 
器 查询 ”结果 


模板 





图 20-7 包装 器 生成 器 为 驱动 器 建 表 , 驱动 器 和 表 组 成 包装 器 


O ”如果 数 据 源 是 一 个 能 用 SQL 查询 的 数据 库 ， 如 我 们 的 例子 ， 通 过 简单 地 将 WHERE 子 句 做 成 一 个 参数 ， 你 可 以 
期 望 一 个 模板 将 任何 数目 的 属性 处 理 为 常数 。 这 种 方法 适用 于 SQL 数据 源 和 只 将 属性 绑 定 到 常数 的 查询 ， 我 
们 不 必 对 任何 数据 源 使 用 同样 的 思想 ， 如 网 页 只 允许 某 些 表格 作为 接口 。 在 一 般 情 况 下 ， 我 们 不 能 假设 一 个 
查询 的 翻译 方式 与 所 有 类 似 查询 的 翻译 都 相同 。 


一 一 一 一 一 一 一 一 一， 


676 #20 È 


包装 器 生成 器 创建 一 个 表 ， 它 存储 模板 中 包含 的 各 种 查询 模式 和 与 每 一 个 查询 模式 相关 的 
源 查询 。 每 一 个 包装 器 都 要 用 到 一 个 驱动 器 ; 一 般 来 说 ， 对 每 一 个 生成 的 包装 器 ， 驱 动 器 可 以 
是 相同 的 。 驱 动 器 的 任务 是 : 

1. 接收 来 自 协 调 器 的 查询 。 通 信 机 制 可 能 是 协调 器 专用 的 ， 并 作为 一 个 “plug-in” 给 予 驱 
动 器 ， 从 而 同一 驱动 器 可 用 于 通信 机 制 不 同 的 系统 。 

2. 在 所 创建 的 表 中 查找 匹配 查询 的 模板 。 如 果 找 到 一 个 模板 ， 则 查询 中 的 参数 值 用 于 实例 
化 源 查 询 。 如 果 没 有 匹配 的 模板 ， 包 装 器 拒绝 对 协调 器 做 出 反应 。 

3. 源 查询 发 送 到 数据 源 ， 又 一 次 使 用 “plug-in” 通 信 机 制 。 数 据 源 的 答复 由 包装 器 收集 。 

4. 如 果 必 要 ， 数 据 源 的 答复 由 包装 器 处 理 ， 然 后 返回 给 协调 器 。 下 一 节 讨论 包装 器 如 何 通 
过 处 理 结果 支持 更 大 的 查询 类 别 。 

20.2.3 过 滤器 
假设 一 位 汽车 代理 商 的 数据 库 的 一 个 包装 器 有 如 图 20-6 所 示 的 模板 ， 但 是 要 让 协调 器 查找 
某 一 型 号 和 颜色 的 汽车 。 包 装 器 可 能 被 设计 为 一 个 具有 如 图 20-8 所 示 的 更 复杂 模板 ， 它 处 理 既 
指明 型 号 又 指明 颜色 的 查询 。 但 是 ， 正 如 我 们 在 例 20.5 结 束 处 所 指出 的 那样 ， 为 每 一 个 可 能 的 

查询 都 写 一 个 模板 是 不 现实 的 。 


SELECT * 
FROM AutosMed 
WHERE model = ’$m’ AND color = ’$c’; 


=> 
SELECT serialNo, model, color, autoTrans, ’dealer1’ 
FROM Cars 
WHERE model = ’$m’ AND color = ’$c’; 





图 20-8 一 个 获得 给 定型 号 和 颜色 的 包装 器 模板 


支持 更 多 查询 的 另 一 种 方法 是 让 包装 器 过 小 向 数据 源 所 提 查询 的 结果 。 只 要 包装 器 有 一 个 
模板 (通过 对 参数 的 适当 替代 )， 它 返回 查询 所 需 结果 的 超 集 ， 则 有 可 能 在 包装 器 中 过 滤 返 回 的 
元 组 ， 只 将 所 需 元 组 传送 到 协调 器 。 总 的 来 说 ， 决 定 一 个 协调 器 查询 是 否 请 求 某 个 包装 器 模板 
的 模式 所 返回 的 结果 的 子 集 是 一 个 困难 的 问题 , 尽管 在 某 些 简单 情况 下 ， 如 我 们 所 看 到 的 例子 
中 ， 理 论 已 经 很 完善 。 参 考 文献 包含 了 一 些 可 以 进一步 研究 的 内 容 。 

例 20.6 ”假设 我 们 所 拥有 的 惟一 模板 如 图 20-6 所 示 ， 它 查找 给 定 一 种 颜色 的 汽车 。 但 是 协 
调 器 要 查找 蓝 色 “Gobi” 型 号 的 汽车 ， 如 使 用 查询 

SELECT * 


FROM AutosMed 
WHERE color = ’blue’ and model = ’Gobi’; 


一 种 可 能 的 回答 查询 的 方法 是 : 
1) 使 用 图 20-6 的 模板 ， 用 $c =，blue” 查 找 所 有 蓝 色 汽车 。 
2) 将 结果 保存 在 下 面 的 临时 关系 中 : 


TempAutos(serialNo, model, color, autoTrans, dealer) 


3) 从 TempaAutos 选 择 Gobis 汽 车 ， 返 回 结果 ， 如 使 用 查询 


SELECT * 
FROM TempAutos 
WHERE model = ’Gobi’; 
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结果 是 所 需 汽 车 的 集合 。 在 实际 中 ，TempAutos 的 元 组 将 以 流水 线 方式 一 次 一 个 地 产生 , 日 
一 次 一 个 地 过 滤 ， 而 不 是 在 包装 器 中 物化 整个 关系 TempaAutos ， 然 后 再 过 滤 。 口 









过 滤 组 件 的 位 置 

在 我 们 的 例子 中 ， 假 设 过 滤 操 作 发 生 在 包装 器 。 也 可 能 包装 器 将 原始 数据 传送 到 协 
调 器 ， 由 协调 器 过 滤 数 据 。 但 是 ， 如 果 由 模板 返回 的 大 部 分 数据 不 匹配 协调 器 的 查询 ， 
则 最 好 在 包装 器 过 滤 ， 避 免 传输 不 需要 的 元 组 的 代价 。 


20.2.4 其 他 在 包装 器 上 进行 的 操作 

只 要 我 们 确保 模板 的 源 查询 部 分 将 变换 所 需 的 所 有 数据 返回 到 包装 器 ， 那 么 在 包装 器 中 以 
其 他 方式 对 数据 进行 变换 也 是 可 能 的 ， 例 如 ， 在 将 元 组 传输 到 协调 器 之 前 ， 对 列 进行 投影 。 其 
至 可 能 在 包装 器 进行 聚集 和 连接 ， 而 后 将 结果 传送 到 协调 器 。 

例 20.7 ”假设 协调 器 想 知 道 在 各 个 代理 商 处 的 蓝 色 Gobi 信 息 ， 但 只 查询 序列 导 、 代 理 商 和 
是 否 有 自动 变速 器 ， 因 为 字段 mode1 和 color 的 值 从 查询 中 显而易见 。 包 装 器 可 以 像 例 20.6 那 
样 进行 处 理 ， 但 在 最 后 一 步 ， 当 结果 要 返回 到 协调 器 时 ， 包 装 器 在 SELECT 子 句 中 执行 投影 ， 
以 及 在 WHERE 子 句 中 过 滤 以 得 到 Gobi 型 号 。 查 询 

SELECT serialNo, autoTrans, dealer 


FROM TempAutos 
WHERE model = ’Gobi’; 


执行 这 种 额外 的 过 滤 ， 尽 管 像 在 例 20.6 中 那样 , 关系 TempAutos 可 能 会 被 以 流水 线 方式 送 
人 投影 操作 符 ， 而 不 是 在 包装 器 中 进行 物化 。 口 







例 20.8 ”对 一 个 更 复杂 的 例子 ， 假设 要 求 一 个 协调 器 查找 代理 商 和 型 号 ,条 件 是 代理 商 有 
两 辆 同型 号 红色 汽车 ， 一 辆 有 自动 变速 器 ， 另 一 辆 没有 。 假 设 对 代理 商 1 来 说 ， 惟 一 可 用 的 模 
板 是 图 20-6 中 有 关 颜 色 的 模板 ， 即 协调 器 询问 包装 器 ， 以 查找 对 图 20-9 中 查询 的 回答 。 注 意 ， 
我 们 不 必 为 4 或 4 指明 一 位 代理 商 ， 因 为 这 个 包装 器 
只 能 存 取 属 于 代理 商 1 的 数据 。 协调 器 也 将 就 同一 个 查 SELECT Al.model Al.dealer 


FROM AutosMed A1, AutosMed A2 





询 询问 其 他 代理 商 的 包装 器 。 WHERE A1.model = A2.model AND 
一 个 设计 精巧 的 包装 器 能 发 现 ， 有 可 能 先 从 代理 At color = sred’ AND 

商 1 的 数据 源 得 到 一 个 该 代理 商 代理 的 所 有 红色 汽车 的 Al.autoTrans = ’no’ AND 

关系 ， 再 回答 协调 器 的 查询 : A2.autoTrans = ’yes’; 
RedAutos(serialNo, model, color, auto Teans, dealer) 图 20-9 从 协调 器 到 包装 器 的 查询 


为 了 得 到 这 个 关系 ,包装 器 使 用 图 20-6 得 到 的 模板 ， 这 个 模板 处 理 只 指明 颜色 的 查询 。 结 果 是 ， 
包装 器 进行 运行 ， 就 像 给 了 它 下 面 的 查询 : 


SELECT * 

FROM AutosMed SELECT DISTINCT Ai.model, Ai.dealer 

WHERE color = ’red’; FROM RedAutos Al, RedAutos A2 
WHERE Ai.model = A2.model AND 

而 后 ， 包装 器 通过 使 用 图 20-6 的 模板 ， 令 Al.autoTrans = ’no’ AND 


A2.autoTrans = ’yes’; 





Sc=’ red'， 从 代理 商 1 的 数据 库 构 建 关 系 
Redautos。 下 一 步 ， 包 装 器 在 Redautos 上 执 图 20-10 为 回答 图 20-9 中 的 查询 在 包装 器 
行 自身 连接 ， 进行 必要 的 选择 ， 以 得 到 图 20-9 (或 协调 器 ) 上 执行 的 查询 
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中 的 查询 所 要 求 的 关系 。 在 这 一 步 中 ,包装 器 所 执行 的 工作 8 如 图 20-10 所 示 。 口 

20.2.5 习题 

* 习题 20.2.1 在 图 20-6 中 ， 我 们 看 到 一 个 简单 的 包装 器 模板 ， 它 将 来 自 协调 器 查找 一 种 给 
定 颜色 汽车 的 查询 翻译 成 针对 具有 关系 Cars 的 代理 商 的 查询 。 假 设 协 调 器 的 模式 所 使 用 
的 颜色 代码 不 同 于 这 个 代理 商 所 用 的 颜色 代码 ， 且 存在 一 个 关系 sGtoL (globalcolor, 
localColor) 实 现 这 两 套 代 码 之 间 的 翻译 。 重 写 模板 ， 以 产生 正确 的 查询 。 
习题 20.2.2 在 习题 20.1.1 中 ， 我们 说 到 两 个 计算 机 公司 4 和 B， 使 用 不 同 模式 描述 其 产品 
信息 。 假 设 我 们 有 一 个 协调 器 ， 其 模式 为 


PCMed(manf, speed, mem, disk, screen) 


直观 的 含义 是 ， 元 组 给 出 制造 商 〈4 或 38 )， 以 及 你 要 从 那个 公司 购买 的 系统 的 处 理 器 速度 、 主 
存 大 小 、 硬 盘 大 小 和 显示 器 尺寸 。 为 以 下 类 型 的 查询 书写 包装 器 模板 。 注 意 你 必须 为 每 个 查询 
写 两 个 模板 ， 每 位 制造 商 一 个 。 
* a) 给 定 一 个 速度 ， 查 找 具 有 那个 速度 的 元 组 。 
b) 给 定 一 个 显示 器 尺寸 ,查找 具有 那个 尺寸 的 元 组 。 
c) 给 定 内 存 和 硬盘 大 小 ， 查 找 匹配 的 元 组 。 
习题 20.2.3 ”假设 对 两 个 数据 源 (计算 机 制造 商 ) 的 每 一 个 , 都 可 用 习题 20.2.2 中 所 描述 的 包 
装 器 模板 。 协 调 器 如 何 使 用 包装 器 的 能 力 以 回答 下 列 查 询 ? 
* a) 查找 具有 1000 MHz 速度 和 40 GB 硬盘 的 所 有 系统 的 制造 商 、 内 存 大 小 和 显示 器 尺寸 。 
! b) 查找 具有 1500 MHz 处 理 器 的 系统 的 硬盘 最 大 容量 。 
c) 查找 具有 128 MBA, 显示 器 尺寸 (以 英寸 计 ) 大 于 硬盘 大 小 ( 以 GB 计 ) 的 所 有 
系统 。 


20.3 协调 器 基于 能 力 的 优化 


16.5 节 介绍 了 基于 成 本 优化 的 思想 。 典 型 的 DBMS 评 估 每 个 查询 计划 的 代价 ， 选 出 其 中 最 
好 的 一 个 。 协 调 器 要 回答 一 个 查询 时 ， 并 不 知道 数据 源 要 用 多 少时 间 来 完成 这 些 查询 。 甚至 ， 
很 多 数据 源 不 是 SQL 数据 库 ， 通 常 它们 只 能 回答 协调 器 给 出 的 查询 类 型 中 的 一 小 部 分 。 这 样 ， 
协调 器 的 查询 优化 不 能 单纯 地 依赖 成 本 估量 来 选择 查询 计划 。 

协调 器 的 优化 通常 采用 简单 的 策略 ， 如 众所周知 的 基于 能 力 的 优化 (capability-based 
optimization )。 关 键 问题 不 是 查询 计划 的 成 本 ， 而 是 计划 是 否 能 被 执行 。 仅 评估 那些 被 认为 是 
可 执行 的 (或 是 可 行 的 ) 计 划 的 成 本 。 

本 市 将 讨论 数据 源 的 能 力 为 什么 重要 ， 接 着 描述 表示 能 力 的 符号 。 最 后 考虑 发 现 可 行 协调 
妖 查 询 计划 的 策略 。 
20.3.1 数据 源 能 力 有 限 的 问题 

现在 , 很 多 有 用 的 数据 源 只 有 基于 Web 的 界面 ， 即使 在 其 表 像 的 后 面 是 普通 数据 库 时 也 如 
此 。Web 数 据 源 通常 只 允许 通过 查询 表格 来 进行 查询 ， 并 不 接受 任意 的 SQL 查 询 。 这 里 ， 用 户 
只 要 对 指定 的 属性 输入 值 ， 然 后 系统 就 接受 响应 给 出 其 他 属性 的 值 。 

例 20.9 Amazon.com 的 界面 允许 用 户 以 多 种 方式 对 书 进行 查询 。 可 以 指定 一 个 作者 以 得 
到 所 有 他 写 的 书 ， 可 以 指定 书 的 标题 以 得 到 关于 这 本 书 的 信息 。 可 以 指定 关键 字 以 得 到 和 关键 


S 在 某 些 信息 集成 结构 中 ， 该 项 工作 可 能 实际 上 由 协调 器 蔡 代 执行 。 
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字 匹 配 的 书 。 但 是 答案 中 得 到 的 某 些 信息 是 不 可 以 指定 的 。 例 如 ，Amazon 根 据 销 售 量 对 书 分 
类 ， 但 是 用 户 不 能 查询 “给 出 排名 前 10 的 畅销 书 ”。 此 外 ， 它 也 不 能 查询 太 笼统 的 问题 。 如 下 
面 的 查询 : 

SELECT * FROM Books ; 

Amazon Web 界 面 不 能 查询 或 者 回答 “给 出 系统 所 知 的 书 的 所 有 信息 ”一 类 问题 ,虽然 如 
果 能 直接 访问 Amazon 数 据 库 的 话 ， 就 可 以 透 过 表 像 来 回答 这 类 问题 。 口 


关于 数据 源 为 什么 要 限制 查询 的 方式 有 很 多 其 他 原因 : 

1. 遗留 数据 源 (Legacy Sources) 中 保存 的 数据 是 陈旧 的 或 是 独特 的 。 很 多 早期 的 数据 库 
不 使 用 DBMS ， 当 然 也 就 不 是 支持 SQL 查询 的 关系 DBMS。 这 些 系统 很 多 被 设计 成 只 能 以 某 种 
十 分 特殊 的 方式 来 查询 。 将 这 些 数据 移植 到 现代 系统 中 几乎 是 不 可 能 的 ， 而 且 只 能 在 这 些 遗 留 
系统 上 运行 的 应 用 程序 还 在 被 使 用 。 这 种 没 人 喜欢 的 被 “锁定 ”在 有 旧 系统 中 的 问题 叫做 遗留 数 
据 库 问 题 ( Legacy database problem )， 而 且 这 种 问题 不 可 能 很 快 被 解决 。 

2. 从 安全 的 角度 考虑 ， 数 据 源 可 以 限制 它 接受 的 查询 类 型 。Amazon 不 愿意 回答 “给 出 所 
有 书 的 信息 ”就 是 一 个 例子 ， 它 防止 了 对 手 利 用 Amazon 数 据 库 。 另 外 一 个 例子 是 医学 数据 库 
可 以 进行 一 般 的 查询 ， 但 是 不 可 以 (向 未 被 授权 的 用 户 ) 透 露 某 个 病人 病例 的 详细 内 容 。 

3. 大 型 数据 库 的 索引 可 以 使 得 某 些 类 型 的 查询 可 行 ， 而 另外 一 些 由 于 代价 太 高 不 可 执行 。 
例如 ， 如 果 书 库 是 关系 型 的 ， 其 中 一 个 属性 是 作者 ， 那 么 没有 关于 这 个 属性 的 索引 的 话 ， 就 不 
可 能 进行 只 指定 一 个 作者 的 查询 。 每 个 这 样 的 查询 将 要 求 查阅 成 千 上 万 的 元 组 9。 


20.3.2 描述 数据 源 能 力 的 符号 


如 果 数 据 是 关系 型 的 ， 或 是 可 以 认为 是 关系 型 的 ， 那 么 可 以 用 装饰 (adornmenbe 来 描述 查 
询 的 合法 形式 ， 装 饰 就 是 代表 对 关系 属性 要 求 的 代码 序列 ， 该 代码 序列 的 次 序 是 标准 次 序 。 本 
书 将 使 用 的 装饰 代码 反映 了 数据 源 的 最 通常 的 能 力 。 如 : 

1. 妇 自由) 表示 属 性 可 以 根据 需要 被 指定 或 者 不 被 指定 。 

2. b( 受 限 ) 表 示 必 需 为 属性 指定 一 个 值 ， 但 是 允许 任意 值 。 

3. u( 不 指定 ) 表 示 不 允许 为 属性 指定 值 。 

4. c[S]( 从 S 集 中 选择 ) 表 示 必 须 指 定 一 个 值 ， 且 这 个 值 必须 是 属于 有 限 集 S。 例 如 ， 这 个 选 
项 对 应 于 Web 界 面 中 下 拉 菜 单 中 指定 的 值 。 

.5. o[S]( 任 选项 , 来 自 集合 S) 表 示 要 么 不 指定 一 个 值 ， 要 么 指定 有 限 集 S 中 的 一 个 值 。 

另外 ， 如 果 属 性 不 是 查询 输出 的 一 部 分 ， 那 么 代码 右上 角 加 一 标记 (( 如 ， 广 )。 

数据 源 的 能 力 规 格 说 明 (capabilities specification) 是 装饰 的 集合 。 意 思 是 为 了 成 功 地 对 数 
据 源 进行 查询 ， 查 询 必须 匹配 能 力 规格 说 明 中 的 一 个 装饰 。 注 意 ， 如 果 装 饰 有 自由 或 任 选 的 成 
分 ， 那么 不 同属 性 集 指定 的 查询 可 以 与 该 装饰 匹配 。 

例 20.10 ”假定 有 两 个 与 例 20.4 中 那 两 个 经 销 商 相似 的 两 个 数据 源 。 经 销 商 1 是 具有 如 下 格 
式 的 数据 源 : 


Cars (serialNo, model, color, autoTrans, cdPlayer ) 


O 必须 意识 到 ， 不 可 以 像 操 作 关 系数 据 库 那样 存 取 类 似 Amazon 的 产品 信息 。 而 且 关于 书 的 信息 是 以 正文 形式 存 
储 ， 具 有 例 排 索引 。 如 13.2.4 节 中 描述 。 此 索引 支持 对 书 的 任何 类 型 查询 ， 如 作者 、 标 题 、 标 题 中 文字 、 正 文 
中 文字 。 

© 些 术语 因 实际 情况 中 将 关系 的 能 力作 为 关系 名 的 下 标 “修饰 ”而 得 来 。 
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注意 ， 原 来 的 关系 Cars 还 有 表示 可 选 的 附加 属性 ， 但 是 本 例 为 了 简单 起 见 ， 只 考虑 自动 传送 
和 CD 唱片 。 经 销 商 1 有 两 种 可 能 的 方式 来 查询 这 些 数据 : 

1. 用 户 指定 序列 号 ， 关 于 那个 序列 号 的 汽车 的 所 有 信息 (如 ， 其 他 四 个 属性 ) 作 为 输出 。 该 
查询 形式 的 装饰 是 puuuu。 也 就 是 说 ， 第 一 个 属性 serialNo 必 须 被 指定 且 不 能 作为 输出 的 一 
部 分 。 其 他 的 属性 不 能 被 指定 且 是 输出 的 一 部 分 。 

2. 用 户 指定 模型 和 颜色 ， 自 动 传送 和 CD 唱片 可 有 可 无 。 所 有 匹配 的 汽车 输出 这 个 五 个 属 
性 。 一 个 合适 的 装饰 是 ; 


ubbolyes, nojo[yes, no] 


这 个 装饰 说 明 不 能 指定 序列 导 ， 而 必须 指定 模型 和 颜色 ， 但 是 允许 其 是 任何 可 能 的 值 。 另 
外 如 果 和 希望 的 话 ， 可 以 指定 是 否 需 要 自动 传送 和 /或 CD 唱片 , 但 是 这 些 域 的 值 仅 仅 只 能 用 ”yes” 
”no” 这 两 个 值 。 
第 二 种 方式 的 另 一 种 可 能 的 选择 是 ， 可 以 假定 查询 限制 属性 model 和 和 /或 color 是 有 效 值 。 
也 就 是 说 ， 模 型 是 从 Aardvark 实 际 上 制造 的 模型 中 选择 ， 颜 色 是 从 有 效 颜色 中 选择 。 ARIES 
样 ， 那 么 uc[Gobi…jc[red,blue.……]bo[yes,nolo[yes,no] 之 类 的 装饰 可 能 更 加 合适 。 


20.3.3 基于 能 力 的 查询 计划 选择 

协调 器 给 定 一 个 查询 ， 基 于 能 力 的 查询 优化 首先 考虑 ， 对 数据 源 端 可 以 提出 哪些 查询 将 有 
助 于 回答 该 查询 。 设 想 一 下 所 提出 的 和 回答 的 那些 查询 ， 它 是 绑 定 了 更 多 的 属性 ， 并 且 这 些 绑 
定 使 得 在 数据 源 端 产生 更 多 的 查询 成 为 可 能 。 重复 上 面 的 过 程 直到 遇 到 下 面 两 种 情况 ; 

1. 在 源 端 已 经 提出 了 足够 多 的 查询 来 解决 协调 器 查询 的 所 有 条 件 ， 因 此 完成 这 些 查 询 。 这 
样 的 策略 称 为 可 行 的 〈feasible )。 

2. 已 不 能 再 为 源 端 构造 更 多 有 效 形式 的 查询 ， 但 是 协调 器 的 查询 仍然 不 能 完成 。 这 种 情况 
下 协调 器 必须 放弃 。 因 为 协调 器 给 出 了 一 个 不 可 能 的 查询 。 

需要 应 用 以 上 策略 的 协调 器 查询 的 最 简单 形式 是 关系 的 连接 ， 带 有 某 种 装饰 的 每 个 关系 在 
一 个 或 多 个 源 处 可 用 。 如 果 这 样 的 话 ， 那 么 查询 策略 是 试图 得 到 连接 中 的 每 个 关系 的 元 组 ， 方 
式 是 提供 足够 的 参数 绑 定 某 个 源 ， 而 该 源 允 许 那个 关系 响应 询问 和 回答 查询 。 下 面 的 简单 例子 


将 说 明 这 一 点 。 


装饰 保证 什么 ? 

如 果 支 持 查询 的 源 匹 配给 定 装饰 ， 并 且 返 回 该 查询 所 有 可 能 的 结果 ， 那 将 是 很 奇妙 
的 。 然 而 ， 正 常情 况 下 源 只 拥有 查询 的 可 能 结果 的 子 集 。 例 如 ，Amazon 没 有 存储 已 经 出 
版 的 每 一 本 书 ， 汽 车 例子 中 的 两 个 经 销 商 的 数据 库 有 不 同 的 汽车 集合 。 因 此 ， 装 饰 更 准 
确 的 解释 是 ;“ 以 装饰 描述 的 方式 回答 查询 ， 给 出 的 结果 都 是 对 的 ， 但 是 不 保证 提供 所 有 


正确 的 结果 。” 

现在 ， 考 虑 如 果 多 个 源 提供 相同 的 关系 R 会 怎么 样 。 协 调 器 对 于 包含 RR 的 查询 不 只 选 
择 一 个 查询 计划 ， 相 反 ， 协 调 器 选择 的 计划 使 用 了 RR 的 每 个 源 。 如 果 源 的 装饰 不 同 ， 那 么 
计划 可 能 不 同 。 甚 至， 如 果 查 询 中 涉及 的 关系 有 交错 的 源 ， 那 么 不 同 计划 的 数目 以 这 种 
关系 的 数目 为 基数 成 指数 倍增 长 。 





例 20.11 假设 有 像 例 20.4 中 的 经 销 商 2 关系 的 源 如 下 : 


Autos (serial, model, color) 


Options (serial, option) 


-一 
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然而 ,假定 Autos 和 Options 是 代表 两 个 不 同 数据 源 中 数据 的 关系 。。 假 定 ubf 是 Autos 
惟一 的 装饰 ， 而 options 有 两 个 装饰 ，bu 和 uc[autoTrans,cdPlayer], 表 示 在 该 源 处 要 询问 的 两 种 
不 同 的 查询 。 令 查询 是 “查找 带 有 CD 播放 器 的 Gobi 模 型 的 序列 号 和 颜色 ”。 

这 里 协调 器 必须 考虑 的 不 同 的 查询 计划 有 三 种 : 

1. 指定 模型 是 Gobi， 查 询 Autos 获 取 所 有 Gobis 的 序列 号 和 颜色 。 接 着 ， 为 每 个 这 样 的 序 
列 号 对 options 使 用 装饰 bb， 找 出 那个 汽车 的 选项 并 进行 筛选 以 确保 它 拥 有 CD 播放 器 。 

2. 指定 CD 播放 器 选项 ， 使 用 如 下 装饰 查询 options 


uc[autoTrans,cdPlayer] 


获取 带 有 CD 播放 器 的 汽车 的 所 有 序列 导 。 接 着 查询 autos 如 (1)， 得 到 Gobis 的 所 有 序列 号 
和 颜色 ， 取 两 套 序列 号 的 交集 。 

3. 如 (2) 查 询 options 获 取 带 有 CD 播放 器 的 汽车 的 序列 号 。 接 着 使 用 这 些 序列 号 来 查询 
Autos 看 其 中 哪些 汽车 是 Gobis 。 

前 两 种 计划 都 是 可 行 的 。 然 而 ， 第 三 种 计划 是 这 几 个 计划 中 不 起 作用 的 一 个 ;系统 没有 能 
力 执行 这 个 计划 ， 因 为 其 第 二 部 分 -一 对 Autos 的 查询 一 一 没有 匹配 的 装饰 。 基 于 能 力 的 优化 
器 审查 这 些 计划 和 所 涉及 关系 的 装饰 ， 并 消除 上 面 第 三 种 类 型 的 不 可 行 计划 。 口 


20.3.4 增加 基于 代价 的 优化 

当 审 查 源 的 能 力 时 ， 协 调 器 的 查询 优化 并 没有 完成 。 因 为 已 经 找到 了 可 行 性 计划 ， 就 必 
须 从 中 选择 。 而 要 作出 明智 的 、 基 于 代价 的 优化 要 求 协调 器 很 清楚 所 涉及 查询 的 代价 。 但 是 
由 于 源 通 常 都 是 独立 于 协调 器 ， 所 以 协调 器 很 难 评估 代价 。 例 如 ， 源 在 少量 载 人 时 用 的 时 间 
较 少 ， 但 是 载 人 时 间 是 什么 时 候 呢 ? 即使 是 估计 响应 时 间 的 长 短 ， 协 调 器 也 需要 做 长 期 的 观 
察 。 

在 例 20.11 中 ， 可 以 简单 地 计算 要 发 布 的 源 的 查询 数目 。 计 划 (2) 仅 仅 使 用 了 两 个 源 查询 ， 
而 计划 (1) 使 用 了 一 个 源 查 询 ， 还 要 再 加 上 Autos 关 系 中 找到 的 Gobis 的 数目 。 因 此 ， 计 划 (2) 
看 起 来 比 计划 《1 ) 代价 低 。 另 一 方面 ， 如 果 每 个 序列 号 对 应 的 options 查 询 可 以 合并 为 一 个 
查询 的 话 ， 那 么 计划 (1) 将 被 认为 是 更 好 的 选择 。 
20.35 习题 

习题 20.3.1 假定 习题 20.1.1 的 每 个 关系 


Computers (number, proc, speed, memory, hd) 


Monitors (number, screen, maxResx, maxResy ) 


是 一 个 信息 源 。 使 用 20.3.2 节 的 符号 ， 写 出 表达 下 面 能 力 的 一 个 或 多 个 装饰 : 
* a) 能 够 查询 给 定 处 理 器 ( 如 “P-IV”、“G4” 或 “Athlon” )、 给 定 速度 和 (可 选 的 ) 内 存 

大 小 的 计算 机 。 

b) 能 够 查询 指定 硬盘 大 小 和 /或 给 定 内 存 大 小 的 计算 机 。 

c) 如 果 指 定 了 显示 器 的 数目 、 屏 幕 大 小 或 两 维 的 最 大 分 辩 率 ， 则 能 够 查询 符合 条 件 的 
显示 器 。 

d) 如 果 指定 了 显示 器 屏幕 大 小 ， 如 15、17、19、 或 21 英 寸 ， 能 够 查询 符合 条 件 的 显示 
器 ， 并 且 返 回 除 显示 器 屏幕 大 小 之 外 的 所 有 属性 。 


O 另外 ,我 们 可 以 假设 经 销 商 2 的 包装 器 支持 协调 器 特性 ， 允 许 它 对 使 用 基于 能 力 技术 发 给 经 销 商 2 的 查询 进行 
优化 。 





一 一 


682 2208 





! e) 如 果 指 定 任意 两 种 处 理 器 类 型 、 处 理 器 速度 、 内 存 大 小 或 硬盘 大 小 ， 能 够 查询 符合 
条 件 的 计算 机 。 

习题 20.3.2 ”假定 有 习题 20.3.1 中 的 两 个 源 ， 但 是 完整 系统 的 属性 是 由 两 个 关系 的 属性 数 
组 成 。 也 就 是 说 ， 该 系统 的 一 些 属 性 在 一 个 关系 中 而 有 一 些 属性 在 另外 一 个 关系 中 。 还 假 
定 对 关系 Computers 访 问 的 装饰 描述 是 buuuu，ubbff， 和 uuubb， 而 对 Monitors 的 装饰 
描述 是 bfff 和 ubbb。 找 出 下 面 查询 计划 中 哪些 是 可 行 的 (排除 那些 开销 明显 较 大 的 计划 ): 

* a) 找 出 拥有 128M 内 存 、80G 硬 盘 和 19 英 寸 显示 器 的 系统 。 

b) 找 出 拥有 Pentium-IV 2000MHz 处 理 器 、21 英 寸 显示 器 且 最 大 分 辩 率 是 1600*1200 的 
! c) 找 出 拥有 G4 750MHz 的 处 理 器 、256M 内 存 、40G 硬 盘 和 17 英 寸 显示 器 的 系统 。 


20.4 联机 分 析 处 理 


现在 , 我 们 开始 研究 信息 集成 系统 特别 是 数据 仓库 的 一 种 重要 应 用 。 公 司 和 组 织 创建 一 个 
数据 仓库 ， 拷贝 大 量 可 得 到 的 数据 ， 指 定 分 析 员 对 这 个 数据 仓库 进行 查询 以 得 到 对 这 个 组 织 非 
常 重要 的 模式 或 趋势 。 这 种 称 为 OLAP ( 表示 联机 分 析 处 理 ， 读 作 “eh-lap”) 的 行为 ， 通 常 包 
括 使 用 一 个 或 多 个 聚集 的 非常 复杂 的 查询 。 这 些 查询 经 常 被 称 作 OLAP 坦 询 或 决策 支持 查询 。 
20.4.1 节 将 给 出 一 些 例子 ， 一 个 典型 的 例子 是 搜索 总 销售 额 增加 或 减少 的 产品 。 


数据 仓库 和 OLAP 
数据 仓库 之 所 以 在 OLAP 应 用 中 扮演 重要 角色 的 原因 有 几 个 。 首 先 ， 数 据 仓库 对 于 组 
织 和 集中 公司 相关 的 数据 以 支持 OLAP 查 询 是 必要 的 ， 开 始 时 数据 可 能 分 散在 许多 不 同 数 
据 库 中 。 但 常常 更 重要 的 是 ，OLAP 查 询 是 复杂 的 ， 与 许多 数据 有 关 ， 在 一 个 事务 处 理 系 
统 中 和 要 使 用 大 量 的 时 间 才 能 执行 它 ， 有 很 高 的 吞吐 量 。 就 19.7 节 来 说 ，OLAP 查 询 可 被 视 
为 “长 事务 ”。 


锁 住 整修 数据 库 的 长 事务 会 关闭 普通 OLTP 操 作 ( 例如 ， 如 果 有 一 个 计算 平均 销售 量 
的 并 发 OLAP 查 询 ， 则 不 能 在 新 销售 记录 产生 的 同时 对 其 进行 录入 。) 一 种 常用 方法 是 将 
原始 数据 拷贝 在 数据 仓库 中 ， 在 数据 源 执 行 OLTP 查 询 和 数据 修改 。 在 一 般 方 案 中 ， 数 据 
仓库 只 是 在 晚上 进行 更 新 ， 而 分 析 人 员 则 于 白天 在 固定 的 数据 副本 上 进行 工作 。 数 据 仓 
库 中 的 数据 可 能 过 时 长 达 24 小 时 ， 这 限制 了 它 对 OLAP 查 询 回答 的 及 时 性 ， 但 在 许多 决策 
支持 应 用 中 ,这 种 延迟 是 可 以 承受 的 。 





用 于 OLAP 应 用 的 决策 支持 查询 通常 要 检查 大 量 的 数据 ， 即使 查询 结果 很 小 。 相 反 ， 通 常 
的 数据 库 操作 ， 如 银行 存款 或 航班 预订 ， 只 与 数据 库 中 一 小 部 分 数据 有 关 。 后 一 种 类 型 的 操作 
通常 被 称 作 OLTP ( 在 线 事务 处 理 ， 读 作 “oh-ell-tee-pee”)。 

最 近 ， 已 开发 出 一 些 查询 处 理 新 技巧 ， 对 OLAP 查 询 的 执行 有 很 好 的 效果 。 此 外 ， 因 为 某 

一 类 OLAP 查 询 的 本 质 特点 ， 称 作 数 据 立 方 体系 统 的 特殊 形式 的 数据 库 处 理 系 统 ， 已 经 开发 出 
来 ,并 投入 了 市 场 ， 以 支持 OLAP 应 用 。 我 们 将 在 20.5 节 讨论 这 些 系 统 。 
20.4.1 OLAP 应 用 

一 个 常见 的 OLAP 应 用 使 用 销售 数据 的 仓库 。 大 型 连锁 店 将 积累 儿 个 TB 的 信息 ， 表 示 每 一 
个 商店 每 一 种 物品 的 每 一 笔 销 售 情况 。 将 销售 情况 聚集 成 组 且 识 别 出 具 有 特殊 意义 的 组 的 查询 ， 
对 公司 预测 未 来 问题 或 机 会 有 极 大 用 途 。 
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20.12 ”假设 Aardvark 汽车 公司 建立 了 一 个 数据 仓库 ， 以 分 析 它 的 汽车 销售 情况 。 数 据 
仓库 的 模式 可 能 是 ; 

Sales(serialNo, date, dealer, price) 

Autos(serialNo, model, color) 

Dealers(name, city, state, phone) 

一 个 典型 的 决策 支持 查询 可 能 检查 自 2001 
年 4 月 1 日 当天 和 以 后 的 销售 情况 ， 以 查看 最 近 Se state, AVG(price) 


FROM Sales, Dealers 


每 一 辆 汽车 的 平均 价格 在 各 州 有 何不 同 。 这 样 WHERE Sales.dealer = Dealers.name AND 


的 查询 如 图 20-11 所 示 。 GROUP BY state, moron 
注意 图 20-11 的 查询 是 如 何 涉及 数据 库 中 大 
量 数据 的 ， 因 为 它 对 每 一 个 最 近 的 sales 事 实 图 20-11 按 州 查找 平均 销售 价 
按 销售 它 的 代理 商 所 在 的 州 来 分 类 。 相 反 ， 常 用 的 OLTP 查 询 ， 如 “查找 序列 号 为 123 的 汽车 销 
售 价格 "， 只 涉及 单一 数据 元 组 。 o 


考虑 另 一 个 OLAP 的 例子 ， 一 个 信用 卡 公司 试图 确定 信用 卡 申请 人 是 否 可 信 。 公 司 为 它 的 所 
有 顾客 及 还 款 记录 建立 了 一 个 数据 仓库 。OLAP 查 询 查找 一 些 因素 ， 如 年 龄 、 收 入 、 是 否 有 家 和 
邮 改 编码 ， 这 些 因素 可 帮助 预测 顾客 是 否 能 按时 付 账单 。 同 样 ， 医 院 可 能 使 用 一 个 病人 数据 仓 
库 ， 关 于 他 们 的 入院 、 化 验 管理 、 结 果 、 诊 断 和 治疗 等 ， 以 分 析 风 险 和 选择 最 好 的 治疗 方法 。 
20.4.2 OLAP 数 据 的 多 维 视图 

在 典型 的 OLAP 应 用 中 ， 存 在 一 个 中 心 关系 或 数据 集合 ， 称 作 “ 事 实 表 ”。 事 实 表 代 表 感 兴 
趣 的 事件 或 对 象 ， 如 例 20.12 中 的 销售 额 。 将 事实 表 中 的 对 象 想像 成 在 多 维 空间 或 “立方 体 ” 
中 排列 是 有 帮助 的 。 图 20-12 是 三 维 数据 的 情况 ， 数 据 由 立方 体内 的 点 来 表示 。 对 应 于 先前 汽 
车 销售 的 例子 ， 我 们 称 其 为 汽车 维 、 代 理 商 维和 时 间 维 。 从 而 ， 在 图 20-12 中 ， 我 们 将 每 一 点 
想像 为 一 辆 汽车 的 一 次 销售 记录 ， 而 维 表示 那 次 销售 的 属性 。 

图 20-12 的 数据 空间 非 正 式 地 可 看 做 “数据 立方 
体 ”， 或 者 更 准确 的 说 是 原始 数据 立方 体 (raw-data 
cube )， 以 便 和 20.5 节 中 更 复杂 的 “数据 立方 体 ” 相 区 
别 。 当 有 必要 和 原始 数据 区 分 开 时 ， 后 者 被 看 做 是 正 
式 的 数据 立方 体 ， 它 和 原始 数据 立方 体 在 以 下 两 个 方 。 个 
面 有 区 别 ; 

1. 它 包括 了 所 有 维 的 子 集 数据 的 素 集 ， 以 及 数据 ER 
本 身 。 . 

2. 正式 数据 立方 体 的 点 表示 原始 数据 立方 体 中 点 
的 聚集 。 例 如 ， 取 代表 示 每 个 单独 汽车 的 “汽车 ” 维 。。 图 20.1》 AARET NIRI 
(如 在 原始 数据 立方 体 中 所 表示 的 那样 )， 该 维 只 可 以 
仅 对 车 的 模型 来 聚集 ， 而 正式 数据 立方 体 的 点 表示 在 给 定 日 子 中 ， 给 定 的 经 销 商 所 销售 的 给 定 
模型 的 汽车 的 总 销售 量 。 

原始 数据 立方 体 和 正式 数据 立方 体 两 个 大 的 方面 的 区 别 ， 被 支持 OLAP 立 方 体 结构 数据 专 
用 系统 所 采用 : 

1. ROLAP 或 关系 DLAP。 在 这 种 方法 中 ， 数 据 存储 在 具有 被 称 作 “ 星 型 模式 ”的 特殊 结构 
的 关系 中 。 这 些 关 系 中 的 一 个 是 事实 表 ， 它 包含 原始 的 或 未 聚集 的 数据 。 对 查询 语言 和 系统 的 
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其 他 能 力 进行 剪裁 ， 以 适用 于 数据 是 以 这 种 方法 组 织 的 假设 。 我 们 将 在 20.4.3 节 讨论 星 型 模式 。 

2. MOLAP 或 多 维 OLAP。 这 是 一 种 特殊 的 结构 ， 即 上 述 的 “数据 立方 体 ”， 用 于 存储 数据 。 
如 上 所 述 ， 数 据 经 常 被 部 分 聚集 。 系 统 可 实现 非 关 系 型 操作 符 ， 以 支持 对 用 这 种 结构 形式 表示 
的 数据 的 查询 。 
20.4.3” 星 型 模式 

星 型 模式 由 事实 表 的 模式 组 成 ， 事 实 表 与 几 个 其 他 关系 相连 ， 它 们 被 称 作 “ 维 表 ”， 下 面 
会 对 其 进行 描述 。 事 实 表 位 于 “ 星 ” 的 中 心 ， 它 的 点 是 维 表 。 总 的 来 说 ， 事 实 表 通 常 有 几 个 表 
示 维 的 属性 和 一 个 或 多 个 依赖 属性 , 这 些 依赖 属性 作为 一 个 整体 表示 对 该 点 有 意义 的 一 些 特征 。 
例如 ， 销 售 数据 的 维 可 能 包括 销售 日 期 、 销 售 地 点 (商店 )、 所 售 物品 类 型 、 付 款 方式 ( 如 现 
金 或 信用 卡 )， 等 等 ， 而 依赖 属性 可 能 是 销售 价格 、 物 品 成 本 或 税 。 

例 20.13 例 20.12 中 的 sales 关 系 


Sales(serialNo, date, dealer, price) 


是 一 个 事实 表 。 维 是 

1. serialNo， 表 示 所 售 汽车 ， 即 在 汽车 空间 中 点 的 位 置 。 

2. date， 表 示 销 售 日 ， 即 在 时 间 维 中 事件 的 位 置 。 

3. Gealer ， 表 示 在 代理 商 空间 中 事件 的 位 置 。 

一 个 依赖 属性 是 price， 它 是 向 这 个 数据 库 所 提出 的 OLAP 查 询 在 一 个 聚集 中 所 通常 要 求 
的 。 但 是 ， 查 找 数目 而 不 是 总 价 或 平均 价格 的 查询 也 是 有 意义 的 ， 如 “为 每 一 位 代理 商 列 出 
2001 年 5 月 的 销售 总 数 ”。 口 


维 表 作 为 事实 表 的 补充 ， 它 描述 沿 每 一 维 的 值 。 通 常 ， 事 实 表 的 每 一 维 属性 是 一 外 码 ， 引 
用 相应 维 表 的 主 码 ， 如 图 20-13 所 示 。 维 表 的 属性 也 描述 在 SQL GROUP BY 查询 中 可 能 的 分 组 。 
一 个 例子 会 使 这 种 思想 更 清楚 。 

例 20.14 对 例 20.12 中 的 汽车 数据 ， 两 个 维 表 是 显然 的 ; 


Autos(serialNo, model, color) 
Dealers(name, city, state, phone) 


维 表 维 表 
事实 表 
维 表 维 表 


图 20-13 事实 表 中 的 维 属性 引用 维 表 的 键 
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事实 表 Sales (serialNo， date, dealer，price) 中 的 属性 serialNo 是 一 个 外 
键 ， 引 用 维 表 Autos 的 serialNoe。 属 性 Autos .model 和 Autos.color 给 出 一 汽车 的 特 
性 。 我 们 可 以 在 这 个 关系 中 添加 许多 其 他 属性 ， 如 布尔 属性 ， 标 明 汽 车 是 否 有 自动 变速 器 或 许 
多 其 他 可 能 选项 中 的 一 个 。 如 果 我 们 将 事实 表 Sales 与 维 表 Autos 进 行 连接 ， 则 属性 mode1l 和 
color 可 用 于 对 销售 以 有 意义 的 方式 进行 分 组 。 例 如 ， 我 们 能 要 求 将 销售 按 颜色 进行 分 解 ， 或 
按 月 和 代理 商 对 销售 进行 分 解 。 

同样 ，sales 的 属性 dealer 是 外 键 ， 引 用 维 表 Dealer 的 name。 如 果 将 Sales 和 
Dealer 进 行 连接 ， 则 我 们 可 选择 另外 的 数据 分 组 方式 ， 如 可 以 将 销售 记录 根据 州 或 城市 进行 
分 解 ， 也 可 以 根据 代理 商 进行 分 解 。 

人 们 可 能 想 知 道 用 于 时 间 ( sales 的 date 属 性 ) 的 维 表 位 于 何 处 。 时 间 是 一 个 事实 属性 ， 
在 数据 库 中 存储 有 关 时 间 的 事实 没有 意义 ， 因 为 我 们 不 能 改变 对 诸如 “2000 年 7 月 5 日 出 现在 哪 
一 年 ? ”此 类 问题 的 答案 。 但 是 ， 因 为 分 析 人 员 经 常 需要 根据 各 种 时 间 单 位 如 周 、 月 、 季 度 和 
年 分 组 ， 所 以 将 时 间 概 念 加 入 数据 库 会 有 帮助 ， 就 如 同 存在 一 个 时 间 维 表 ， 如 

Days (day, week, month, year), 

这 个 关系 的 一 个 典型 元 组 是 

(5, 27, 7, 2000) 
表示 2000 年 7 月 5 日 。 解 释 为 这 天 是 2000 年 第 7 个 月 的 第 5 天 ， 它 也 竣 巧 为 2000 年 的 第 27 个 整 周 。 
因为 局 可 以 从 其 他 三 个 属性 计算 得 到 ， 所 以 产生 了 一 
定 程度 的 元 余 。 但 是 ， 周 并 不 与 月 精确 相当 ， 我 们 不 汽车 M 
能 从 按 周 分 组 得 到 按 月 分 组 ， 反 之 亦 然 。 因 而 ， 在 这 
个 “ 维 表 ”中 ， 周 和 月 都 被 表示 是 有 意义 的 。 口 
20.44 切片 和 切 块 

我 们 可 以 将 数据 立方 体 的 点 想像 为 在 某 个 粒度 水 
平 上 沿 每 一 维 进行 的 分 割 。 例 如 ， 在 时 间 维 上 ， 我 们 。 代理 商 
可 以 根据 日 、 周 、 月 和 年 进行 分 割 (SQL 术语 中 的 
“group by”)， 或 根本 不 做 分 割 。 对 汽车 维 ， 我 们 可 以 日 其 
根据 型 号 、 颜 色 以 及 型 号 和 颜色 进行 分 割 ， 或 不 分 割 。 
对 代理 商 ， 我 们 可 以 按 代理 商 、 城 市 以 及 州 进行 分 割 ， 
或 不 分 割 。 

对 每 一 维 进行 分 割 的 一 种 选择 是 对 立方 体 切 块 ， 
如 图 20-14 所 示 。 结 果 是 立方 体 被 分 成 更 小 的 立方 体 ， 
它们 表示 点 的 分 组 ， 通 过 一 个 在 其 GROUP BY 语句 中 
执行 分 割 的 查询 对 它们 的 统计 信息 进行 聚集 。 通 过 
WHERE 语句 ， 查 询 也 可 集中 于 沿 一 个 或 多 个 维 ( 即 在 
立方 体 中 的 特定 “ 片 ”) 的 特定 分 割 。 结 果 是 查询 将 在 
整个 立方 体 的 某 个 子 空间 中 寻求 值 的 聚集 。 

120.15 ”图 20-15 是 一 个 查询 示例 ， 在 这 个 查询 em 
中 我 们 要 在 某 一 维 (日 期 ) 上 切片 ， 在 其 他 两 维 ( 汽 图 20-15 选择 切 块 立方 体 的 一 片 
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© serialNo 凑 巧 也 是 sales 关 系 的 主键 ， 但 是 不 必 有 一 个 属性 ， 它 既是 事实 表 的 键 ， 也 是 某 个 维 表 的 外 键 。 
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车 和 代理 商 ) 上 切 块 。 日 期 被 分 为 四 组 ， 可 以 是 积累 数据 的 年 数 。 图 中 的 阴影 说 明 我 们 只 对 这 
些 年 中 的 一 个 感 兴趣 。 

汽车 被 分 割 为 三 组 , 轿车 、SUV 和 可 转换 汽车 ,而 代理 商 被 分 割 为 两 组 ,西部 和 东部 地 区 。 
查询 结果 是 一 个 表 ， 它 给 出 感 兴趣 的 那 一 年 的 六 类 中 每 一 类 的 销售 总 额 。 口 


所 谓 “ 切 片 和 切 块 ”查询 的 一 般 形式 为 : 

SELECT SHEAR 

FROM 与 零 维 或 多 维 表 连 接 的 事实 表 

WHERE 等 于 常量 的 某 些 属 性 

GROUP BY 分 组 属性 

20.16 让 我 们 继续 讨论 汽车 例子 ,但 是 包含 用 于 在 例 20.14 讨 论 过 的 时 间 的 概念 Days 维 
表 。 如 果 Gobi 的 销售 不 如 所 想 的 那样 好 ， 我 们 可 以 试图 查找 哪 一 种 颜色 卖 得 不 好 。 这 个 查询 只 
用 到 autos 维 表 ， 可 将 SQL 写 为 : 

SELECT color, SUM(price) 

FROM Sales NATURAL JOIN Autos 


WHERE model = ’Gobi’ 
GROUP BY color; 


这 个 查询 根据 颜色 切 块 ， 然 后 根据 型 号 切片 ， 集 中 于 一 个 特定 型 号 Gobi， 而 忽略 其 他 数据 。 

假设 查询 没有 告诉 我 们 很 多 信息 ， 每 一 种 颜色 的 收入 大 致 相等 。 因 为 查询 没有 在 时 间 上 进 
行 分 割 ， 我 们 只 看 到 每 一 种 颜色 在 所 有 时 间 上 的 销售 总 额 。 我 们 可 以 假设 最 近 的 趋势 是 一 个 或 
多 个 颜色 的 销售 量 在 下 降 ， 因 而 可 以 发 布 一 个 查询 ， 它 按 月 分 割 时 间 ， 这 个 查询 是 ; 

SELECT color, month, SUM(price) 

FROM (Sales NATURAL JOIN Autos) JOIN Days ON date = day 

WHERE model = ’Gobi’ 

GROUP BY color, month; 

重要 的 是 要 记 住 ，Days 关 系 并 不 是 传统 的 存储 关系 ， 尽 管 我 们 可 以 把 它 处 理 成 似乎 它 有 
以 下 模式 ， 


Days(day, week, month, year) 


使 用 这 样 的 “关系 ”的 能 力 表明 一 种 方式 : 数据 立方 体系 统 是 DBMS 的 一 种 特 化 。 

我 们 可 以 发 现 红色 Gobi 最 近 销 售 得 不 怎么 好 。 接 下 来 我 们 可 能 会 问 ， 这 个 问题 对 所 有 的 代 
理 商 都 存在 吗 ? 还 是 仅 有 几 个 代理 商 的 红色 Gobi 销 得 不 好 。 这 样 ， 我 们 会 进步 将 查询 集中 在 
只 看 红色 Gobi， 并 沿 代理 商 维 来 分 区 。 这 样 的 查询 为 : 


SELECT dealer, month, SUM(price) 

FROM (Sales NATURAL JOIN Autos) JOIN Days ON date = day 

WHERE model = ’Gobi’ AND color = ’red’ 

GROUP BY month, dealer; 

此 时 ,我 们 发 现 红色 Gobi 的 月 销售 量 非常 少 ， 以 致 不 能 发 现任 何 趋势 ， 因 此 ， 我 们 认为 按 
月 分 割 是 个 错误 。 一 个 更 好 的 主意 是 只 按 年 分 割 ， 且 只 看 过 去 的 两 年 〈 在 这 个 假想 的 例子 中 ， 
是 2001 年 和 2002 年 )。 最 后 查询 如 图 20-16 所 示 。 口 
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SELECT dealer, year, SUM(price) 
FROM (Sales NATURAL JOIN Autos) JOIN Days ON date = day 
WHERE model = ’Gobi’ AND 


color = ’red’ AND 
(year = 2001 OR year = 2002) 
GROUP BY year, dealer; 


20-16 有 关 红 色 Gobi 销 售 量 的 切片 和 切 块 





20.4.5 习题 
* 习题 20.4.1 ”一 个 计算 机 在 线 销 售 商 想 维护 有 关 定 单 的 数据 。 顾 客 可 以 定购 他 们 的 PC， 这 
些 PC 装 有 几 种 处 理 器 之 一 、 选 定 的 主 存 容量 、 几 种 磁盘 之 一 以 及 几 种 CD 或 DVD 读 取 器 之 
一 。 这 样 ， 一 个 数据 库 中 的 事实 表 可 能 是 : 
Orders(cust, date, proc, memory, hd , rd, quant, price) 

我 们 应 该 明白 ，cust 属 性 是 一 个 ID， 它 是 有 关 顾 客 的 一 个 维 表 的 外 键 ， 属 性 proc、 
hd 和 rd 同样 也 是 有 关 表 的 相应 外 键 。 例 如 ， 可 以 在 一 个 维 表 中 更 详细 地 说 明 一 个 磁盘 ID， 
给 出 磁盘 制造 商 和 几 个 磁盘 特征 。 属 性 memory 只 是 一 个 整数 ， 即 定购 的 内 存 兆 数 ， 属 性 
quant 表 示 这 位 顾客 要 定购 的 机 器 数量 ，price 表 示 每 一 台 定购 机 器 的 总 价格 。 

a) 哪些 是 维 属性 ， 哪 些 是 依赖 属性 ? 

b) 对 一 些 维 属 性 ， 可 能 需要 一 个 维 表 。 给 出 这 些 维 表 的 一 种 适当 模式 。 
习题 20.4.2 假设 我 们 想 检 查 习 题 20.4.1 中 的 数据 以 查找 销售 趋势 ， 从 而 预测 公司 应 该 更 多 
地 定购 哪些 组 件 。 描 述 一 系列 的 下 钻 ( drill-down ) 和 上 卷 (roll-up ) 查询 ， 它 们 能 产生 
“顾客 开始 更 喜欢 DVD 驱动 器 而 不 是 CD 驱动 器 ”的 结论 。 


下 钻 和 上 卷 
例 20.16 以 切片 和 切 块 数据 立方 体 的 查询 序列 形式 ， 说 明了 两 种 常用 方式 。 
1. 下 钻 是 更 精细 地 分 割 和 或 集中 在 某 些 维 上 的 特定 值 的 过 程 。 在 例 20.16 中 ， 除 最 后 


一 步 外 其 余 各 步 都 是 下 钻 的 例子 。 
2. 上 着 是 更 粗 一 些 的 分 割 过 程 。 在 最 后 一 步 中 ， 我 们 按 年 分 组 而 不 是 按 月 来 消除 数 
据 的 随机 性 结果 ， 是 上 卷 的 一 个 例子 。 


20.5 数据 立方 体 


在 这 个 小 节 里 面 ， 将 考虑 ”正规 ”的 数据 立方 体 以 及 用 这 种 形式 表示 的 数据 上 的 操作 。 回 
忆 20.4.2 小 节 中 的 正规 数据 立方 体 〈 在 本 节 就 叫做 “数据 立方 体 ' )， 用 系统 性 方法 预先 计算 了 
所 有 可 能 的 聚集 。 令 人 吃惊 的 是 ， 额 外 所 需 的 存储 空间 一 般 可 以 忍受 ， 而 且 只 要 数据 仓库 的 数 
据 没有 改变 ， 保 持 所 有 的 聚集 为 最 新 版 是 可 行 的 。 

在 数据 立方 体系 统 中 ， 将 事实 表 中 的 原始 数据 存 人 数据 立方 体 存储 系统 之 前 ， 对 其 进行 一 
些 聚 集 是 正常 的 。 例 如 ， 在 汽车 例子 中 ， 我 们 认为 是 星 型 模式 中 序列 号 的 维 可 能 由 汽车 型 号 来 
代替 。 那 么 数据 立方 体 中 的 每 一 个 记录 便 描述 型 号 、 代 理 商 和 日 期 ， 以 及 该 型 号 的 汽车 在 那个 
日 期 由 该 代理 商 所 销售 的 总 额 。 我 们 将 继续 把 数据 立方 体 中 的 点 称 作 “ 事 实 表 ”"， 即 使 对 点 的 
解释 可 能 与 星 型 模式 中 的 事实 表 有 所 不 同 。 
20.5.1 立方 体操 作 符 . 

给 定 一 个 事实 表 ， 我 们 能 定义 一 个 扩充 表 cUBE ( 正 )， 这 个 表 向 每 一 维 添 加 一 个 附加 值 ， 
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以 * 表 示 。 这 里 的 * 具 有 它 的 本 意 “任何 "， 且 表示 沿 它 出 现 的 维 的 聚集 。 图 20-17 表 示 了 为 立方 
体 的 每 一 维 添加 一 个 边 的 过 程 ， 以 此 来 表示 它 
所 代表 的 * 值 和 聚集 值 。 在 这 个 图 中 ， 我 们 看 到 
三 维 ， 颜 色 最 浅 的 阴影 表示 在 一 维 上 进行 的 聚 
集 ， 较 深 的 阴影 表示 在 二 维 上 的 聚集 ， 在 边 角 
处 颜色 最 深 的 立方 体 表 示 在 所 有 三 维 上 的 聚集 。 
注意 , 如 果 每 一 维 上 值 的 数目 相当 大 ， 但 还 不 足 
以 使 立方 体 中 的 大 部 分 点 都 被 未 占用 ， 则 “ 边 ” 
只 代表 对 立方 体 容积 〈 即 事实 表 中 的 元 组 数 ) 


的 少量 增加 。 在 这 种 情况 下 ， 所 存储 数据 的 T TROA 
CUBE (F) 大 小 并 不 比 FF 自 身 的 规模 大 多 少 。 图 20-17 立方 体操 作 符 对 数据 立方 体 进 行 扩 充 ， 


他 4 合 X. AAA 一 X. 
在 一 个 或 多 个 维 上 具有 * 的 表 CUBE (F) 中 ， SRS Lat 


对 每 一 个 依赖 属性 ， 元 组 将 具有 所 有 元 组 中 那个 属性 值 的 总 和 或 另 一 个 聚集 函数 )， 通 过 用 
真实 的 值 蔡 代 * ， 我 们 获得 这 个 总 和 。 事 实 上 ， 我 们 在 数据 中 加 入 沿 任何 维 集合 的 聚集 。 但 是 ， 
注意 CUBE 操 作 符 不 支持 基于 维 表 数 据 的 中 间 粒 度 级 别 上 的 聚集 。 例 如 ， 我 们 可 能 要 么 按 日 将 
数据 进行 分 解 ( 或 对 时 间 来 说 最 细 的 粒度 )， 要 么 完全 聚集 时 间 ， 但 是 我 们 不 能 单独 使 用 CUBE 
操作 符 ， 按 周 、 月 或 年 来 聚集 。 

例 20.17 ”让 我 们 根据 cUBE 操 作 符 ， 重 新 考虑 例 20.12 中 的 Aardvark 数 据 库 。 回 想 那个 例子 
中 的 事实 表 是 

Sales(serialNo, date, dealer, price) 
但 是 ，serialNo 代 表 的 维 不 太 适 合用 于 立方 体 ， 因 为 序列 号 惟一 标识 了 一 部 汽车 ， 从 而 
serialNo 是 sales 的 一 个 码 。 所 以 ， 要 对 所 有 日 期 的 价格 求 和 ， 或 对 所 有 代理 商 求 和 ， 但 保 
持 固 定 序列 号 不 起 作用 ， 我 们 仍 将 得 到 具有 那个 序列 号 的 汽车 的 “总 和 ”。 一 个 更 有 用 的 数据 立 
方 体 将 用 两 个 属性 一 一 型 号 和 颜色 ， 来 代替 序列 号 ， 通 过 维 表 Autos ， 序 列 号 将 Sales 与 这 两 
个 属性 联系 。 注 意 ， 如 果 我 们 使 用 node1 和 color 人 代替 serialNo， 则 立方 体 的 维 中 不 再 有 码 ， 
因此 ， 立 方 体 的 数据 项 将 有 某 一 型 号 的 某 一 颜色 的 汽车 由 某 一 位 代理 商 在 某 一 日 期 的 销售 总 额 。 

还 有 一 种 改变 对 于 Sales 事 实 表 的 数据 立方 体 实现 有 用 。 因 为 CUBE 操 作 符 通常 对 依赖 属 
性 求 和 ， 而 我 们 可 能 想得到 某 种 分 类 的 平均 销售 价格 ， 我 们 既 需 要 每 一 个 汽车 分 类 的 销售 总 额 
( 某 一 位 代理 商 在 某 一 天 所 卖 的 某 一 型 号 的 某 一 颜色 汽车 ), 也 需要 那个 类 别 的 销售 总 量 。 因 而 ， 
我 们 使 用 CUBE 操 作 符 的 关系 Sales 是 


Sales (model, color, date, dealer, val, cnt) 


属性 val 用 于 表示 给 定型 号 、 颜 色 、 日 期 和 代理 商 的 所 有 汽车 的 总 价值 ， 属 性 cnt 是 那个 类 别 
的 汽车 总 量 。 注 意 ， 在 这 个 数据 立方 体 中 ， 单 辆 汽车 并 不 被 识别 ， 它 们 只 影响 其 所 属 类 别 的 总 
价 和 数量 。 

现在 ， 让 我 们 考虑 关系 CUBE ( Sales )。 既 在 Sales 中 又 在 CUBE (Sales) 中 的 一 个 可 
能 的 元 组 为 í 

C Gobi’ ,” red? ,'2001-05-21’ ,'Friendly Fred’ , 45000, 2) 
对 它 的 解释 是 : 在 2001 年 5 月 21 日 ， 代 理 商 Friendly Fred 卖 了 两 辆 红色 Gobi， 总 价值 为 $45 000. 
元 组 


( Gobi’ , *, ‘2001-05-21’ , ’ Friendly Fred’ , 152000, 7) | 
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表示 在 2001 年 5 月 21 日 ， 代 理 商 Friendly Fred 卖 了 7 辆 各 色 Gobi， 总 价值 为 $152 000。 注 意 这 个 
元 组 在 CUBE (Sales) 中 ,但 不 在 Sales 中 ， 

关系 CUBE (Sales) 也 包含 表示 在 多 于 一 个 属性 上 的 聚集 的 元 组 。 例 如 ， 

(” Gobi’ , *, '2001-05-21’ , *, 2348000, 100) 
表示 在 2001 年 5 月 21 日 ， 所 有 代理 商 卖 了 100 辆 Gobi， 总 价值 为 $2 348 000. 


(° Gobi’ , *, *, *, 1339800000, 58000) 


表示 在 所 有 时 间 内 ， 所 有 代理 商 共 卖 了 58 000 辆 各 色 Gobi， 总 价值 为 $1 339 800 000, 

最 后 ， 元 组 

(*, *, *, *, 3521727000, 198000) 
告诉 我 们 所 有 代理 商 在 所 有 时 间 共 卖 了 各 种 Aardvark 型 号 汽车 198 000 辆 , 总 价值 $3 521 727 000. 

口 

考虑 如 何 回答 这 样 一 个 查询 , 在 这 个 查询 中 , 我 们 在 sales 关 系 的 某 几 个 属性 上 指明 条 件 ， 
并 按 其 他 一 些 属 性 进行 分 组 ， 同 时 查询 总 和 、 数 量 或 平均 价格 。 在 关系 CUBE (Sales) 中 ， 
我 们 查找 具有 以 下 特点 的 元 组 :: 

1. 如 果 查 询 为 属性 a 指明 一 个 值 "， 则 元 组 t 在 它 表示 a 的 分 量 中 有 v。 

2. 如 果 查 询 根 据 一 个 属性 a 进行 分 组 ， 则 {在 它 表示 a 的 分 量 中 有 任何 非 * 值 。 

3. 如 果 查 询 既 不 根据 属性 a 进行 分 组 ， 也 不 为 a 指明 一 个 值 ， 则 :在 它 表示 a 的 分 量 中 有 *。 
每 一 个 元 组 ! 有 期 望 得 到 的 分 组 之 一 的 总 价值 和 数量 。 如 果 我 们 想 要 平均 价格 ， 则 对 每 一 个 元 
组 +， 在 总 价值 和 数量 分 量 上 进行 相 除 。 

例 20.18 对 查询 


SELECT color, AVG(price) 

FROM Sales 

WHERE model = ’Gobi’ 

GROUP BY color; ~ 
的 回答 是 通过 查找 cCUBE (Sales) 中 所 有 具有 形式 

(‘Gobi’ , c, *, *, v, n) 
的 元 组 ， 其 中 c 是 任意 指定 的 颜色 。 在 这 个 元 组 中 ，v 是 那个 颜色 的 Gobi 的 销售 总 额 ，n 是 那个 
颜色 的 Gobi 的 销售 量 。 这 个 查询 所 要 求 的 元 组 是 ( c, wn)， 也 就 是 说 平均 价格 ， 尽 管 它 不 直接 
是 Sales 或 CUBE (Sales) 的 属性 , 但 是 可 以 通过 用 汽车 数量 去 除 总 销售 额 而 得 到 。 对 这 个 
查询 的 回答 是 从 (Gobi ，,c,*, # v, n) 得 到 的 c, wm 对 的 集合 。 口 


20.5.2 通过 物化 视图 实现 立方 体 

在 图 20-17 中 我 们 说 明了 给 立方 体 添加 聚集 不 会 费 太 多 的 空间 ， 而 且 会 使 常见 的 决策 支持 
查询 的 执行 节省 大 量 时 间 。 但 是 ， 我 们 的 分 析 是 基于 查询 选择 在 一 维 上 要 么 完全 聚集 ， 要 么 不 
聚集 这 样 的 假设 。 对 一 些 维 来 说 ， 有 许多 粒度 可 用 于 选择 作为 在 那个 维 上 的 分 组 。 

我 们 已 经 提 到 时 间 情 况 ， 对 时 间 来 说 ， 除 按 日 进行 全 部 或 空 的 分 组 选择 或 在 所 有 时 间 上 进 
行 聚 集 外 ， 还 存在 许多 选择 ， 如 按 星期 、 月 、 季 度 和 年 进行 聚集 。 另 一 个 基于 汽车 数据 库 的 例 
子 是 我 们 可 能 选择 对 代理 商 完全 聚集 或 根本 不 聚集 。 但 是 ， 我 们 也 可 能 选择 按 城市 、 州 或 其 他 
地 区 以 及 大 或 小 进行 聚集 。 因 而 ， 对 时 间 分 组 的 选择 至 少 有 六 种 ， 对 代理 商 进 行 分 组 的 选择 至 
少 有 四 种 。 


Ww 
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当 沿 每 一 维 分 组 的 可 选 方法 数量 增加 时 ， 存 储 按 每 一 个 可 能 的 分 组 组 合 的 聚集 结果 变 得 格 
外 昂贵 。 不 仅 有 许多 这 样 的 结果 ， 而 且 它 们 不 像 全 部 -或 - 空 的 情况 下 那样 容易 组 织 成 如 图 20-17 
所 示 的 结构 。 因 此 ， 商 品 化 的 数据 立方 体系 统 可 以 帮助 用 户 选 择 一 些 数据 立方 体 的 物化 视图 。 
物化 视图 是 一 些 查询 结果 ， 我 们 将 它 存储 在 数据 库 中 ， 而 不 是 响应 查询 要 求 对 其 全 部 或 部 分 进 
行 重 建 。 对 数据 立方 体 来 说 ， 我 们 选择 来 进行 物化 的 视图 是 典型 的 对 整个 数据 立方 体 的 聚集 。 

分 组 所 蕴含 的 划分 越 粗 ， 物 化 视图 所 需 空间 就 越 少 。 另 一 方面 ， 如 果 我 们 想 使 用 视图 去 回 
答 某 一 查询 ， 则 视图 对 任 一 维 的 划分 不 能 比 查询 对 这 一 维 的 划分 更 粗 。 从 而 ， 为 了 最 大 化 物化 
视图 的 作用 ， 我 们 通常 想 用 一 些 大 视图 ， 它 们 将 维 分 组 成 相当 细 的 划分 。 另 外 ， 分 析 人 员 可 能 
要 提出 的 查询 类 型 会 极 大 地 影响 对 要 物化 的 视图 的 选择 。 用 一 个 例子 提出 所 涉及 到 的 权衡 问题 。 

例 20.19 让 我 们 回 到 例 20.17 中 研究 的 数据 立方 体 


Sales (model, color, date, dealer, val, cnt) 
一 个 可 能 的 物化 视图 按 月 将 日 期 分 组 ， 按 城市 将 代理 商 分 组 。 我 们 称 这 个 视图 为 salesv1， 
由 图 20-18 中 的 查询 建立 。 这 个 查询 不 是 一 个 严格 的 SQL， 因 为 我 们 想像 数据 立方 体系 统 能 理 
解 日 期 和 它们 的 分 组 单元 如 月 ， 而 不 需要 告诉 数据 立方 体系 统 将 Sales 与 例 20.14 中 讨论 的 表 
示 日 的 假想 关系 进行 连接 。 


INSERT INTO SalesVi 
SELECT model, color, month, city, 
SUM(val) AS val, SUM(cnt) AS cnt 


FROM Sales JOIN Dealers ON dealer = name 
GROUP BY model, color, month, city; 


图 20-18 物化 视图 Salesv1i 


为 一 个 可 能 的 物化 视图 对 颜色 进行 完全 来 集 ， 将 时 间 聚 集成 星期 ， 根 据 州 对 代理 商 进行 聚 
集 。 这 个 视图 Salesv2 由 图 20-19 中 的 查询 来 定义 。 





INSERT INTO SalesV2 
SELECT model, week, state, 


SUM(val) AS val, SUM(cnt) AS cnt 
FROM Sales JOIN Dealers ON dealer = name 
GROUP BY model, week, state; 





图 20-19 另 一 个 物化 视图 SalesV2 
视图 SalesV1 或 SalesV2 可 用 来 回答 在 二 者 的 任 一 维 上 不 做 更 细 划 分 的 查询 。 因 此 ， 查 询 


Q1: SELECT model, SUM(val) 
FROM Sales 
GROUP BY model; 


可 以 用 


SELECT model, SUM(val) 
FROM SalesVi 
. GROUP BY model; 


来 回答 ， 也 可 以 用 


SELECT model, SUM(val) 
FROM SalesV2 
GROUP BY model; 


Rat 


来 回答 。 另 一 方面 ， 查 询 


Q2: SELECT model, year, state, SUM(val) 
FROM Sales JOIN Dealers ON dealer = name 
GROUP BY model, year, state; 


只 能 从 salesv1i 中 得 到 回答 : 


SELECT model, year, state, SUM(val) 
FROM SalesV1 
GROUP BY model, year, state; 


附带 说 明 一 下 ， 上 面 这 个 查询 ， 像 聚集 时 间 单元 的 查询 一 样 ， 不 是 严格 的 SQL。 即 ，state 不 
是 SalesV1 的 属性 ; 只 有 city 是 SalesVI1 的 属性 。 我 们 必须 假设 数据 立方 体系 统 知道 如 何 执 
行将 城市 聚集 成 州 ， 可 能 是 通过 访问 为 代理 商 建立 的 维 表 。 

我 们 不 能 从 salesv2 回 答 02。 尽 管 我 们 能 将 城市 上 卷 成 州 ( 如 将 城市 聚集 成 它们 的 州 ) 
以 使 用 SalesV1 ， 但 不 能 将 星期 上 卷 成 年 ， 因 为 年 不 能 被 星期 整除 。 比 如 以 开始 于 2001 年 12 月 
29 日 的 某 周作 参考 ， 对 2001 年 和 2002 年 内 的 数据 做 统计 ， 我 们 就 不 能 区 分 按 星 期 聚集 的 数据 。 

最 后 ， 一 个 类 似 的 查询 : 

Q3: SELECT model, color, date, SUM(val) 

FROM Sales 

GROUP BY model, color, date; 
的 查询 既 不 能 从 SalesV1 也 不 能 从 salesV2 得 到 回答 。 它 不 能 从 salesV1 得 到 回答 ， 是 因为 
它 的 按 月 来 划分 天 数 太 粗 ， 不 能 包含 按 日 的 销售 额 。 它 也 不 能 从 salesV2 得 到 回答 ， 是 因为 
这 个 视图 不 是 按 颜色 进行 分 组 的 。 我 们 将 不 得 不 直接 从 整个 数据 立方 体 回答 这 个 查询 。 口 
20.5.3 视图 的 格 

为 了 形式 化 例 20.19 中 的 现象 ， 把 对 立方 体 的 每 一 维 进行 的 可 能 分 组 想像 成 格 是 有 帮助 的 。 
分 格 的 方法 就 是 按 其 维 表 的 一 个 或 多 个 属性 通过 分 组 对 这 一 维 的 值 进 行 划 分 。 我 们 称 划分 P, 在 
划分 P; 之 下 ， 当 且 仅 当 P 的 每 一 个 分 组 包含 在 P; 的 菜 些 分 组 内 ， 记 作 Pi<P;。 

例 20.20 ”对 时 间 划 分 的 格 可 以 选择 图 20-20 中 的 格 。 从 某 个 结 点 Pi 向 下 到 P, 的 一 条 路 径 表 
示 Pi<P,。 这 些 不 是 惟一 可 能 的 时 间 单 元 ,但 它们 可 用 于 作为 系统 可 能 支持 什么 单元 的 示例 。 
注意 ， 日 位 于 周 和 月 的 下 面 , 但 是 周 并 不 位 于 月 的 下 面 。 原 因 是 发 生 在 一 天 内 的 一 组 事件 肯定 
发 生 在 一 个 周 和 一 个 月 肉 ， 但 是 发 生 在 一 周 内 的 一 组 事件 不 一 定 发 生 在 一 个 月 内 。 同 样 ， 一周 
分 组 不 必 包 含 在 对 应 于 季度 和 年 的 分 组 内 。 最 上 面 的 是 我 们 称 之 为 “全 部 ”的 划分 ， 意 思 是 事 
件 被 分 成 一 个 组 ， 即 我 们 不 区 分 时 间 。 

图 20-21 表 明了 另 一 个 格 ， 这 次 是 为 汽车 例子 中 的 代理 商 维 建立 的 。 这 个 格 比 较 简单 ， 它 
表明 按 代理 商 划 分 销售 额 比 按 代 理 商 所 在 城市 进行 划分 更 细 , 按 代理 商 所 在 城市 进行 划分 比 按 
代理 商 所 在 州 划分 更 细 。 格 的 上 面 是 将 所 有 的 代理 商 放 人 一 个 分 组 的 划分 。 口 


如 果 每 一 维 都 有 一 个 格 ， 现 在 我 们 可 以 为 数据 立方 体 的 所 有 可 能 的 物化 视图 定义 一 个 格 ， 
它 根 据 对 每 一 维 的 一 些 划 分 通过 分 组 而 形成 。 如 果 说 由 和 有 2 是 两 个 视图 ， 它 们 通过 为 每 一 维 先 
择 一 种 划分 而 形成 ， 则 VV 意味 着 在 每 一 维 上 ， 在 Vi 中 我 们 使 用 的 划分 Pi 至 少 与 访 中 我 们 为 
那个 维 使 用 的 划分 P; 一 样 细 ， 即 P< PP,。 

许多 OLAP 查 询 也 能 放 在 视图 格 中 。 事 实 上 ， OLAP 查 询 与 我 们 已 讨论 过 的 视图 常常 具 有 
相同 形式 : 查询 为 每 一 维 指明 一 些 划 分 ( 可 能 空 的 或 全 部 )。 其 他 OLAP 查 询 如 我 们 在 图 20-15 
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中 所 示 的 那样 ， 包 括 相 同 的 分 组 类 型 ， 而 后 对 立方 体 进行 “切片 "， 以 集中 于 数据 的 蘑 一 子 集 。 
一 般 的 规则 是 ; 
“ 我 们 能 用 视图 V 回 答 一 个 查询 0 当 且 仅 当 V< 8。 


全 部 za 
NS Ai 
和 | 
| 3 
on | 
| 城市 


~ a Í 代理 商 
天 


图 20-20 对 时 间 区 间 划 分 的 格 图 20-21 汽车 代理 商 划分 的 格 


例 20.21 图 20-22 使 用 例 20.19 中 的 视图 和 查询 ， 并 将 它们 放 在 一 个 格 中 。 注 意 sales 数 据 

立方 体 本 身 从 技术 上 说 是 一 个 视图 ， 对 应 于 沿 每 一 维 可 能 进行 的 最 细 划 分 。 正 如 我 们 在 原来 的 
例子 中 所 看 到 的 那样 ，Q1 既 可 以 从 Salesv1 得 到 回答 ， 也 可 从 SalesvV2 中 得 到 铝 答 ， 当 然 它 

也 从 整个 数据 立方 体 中 得 到 回答 ， 但 是 如 果 一 个 其 他 o1 02 03 

视图 已 物化 ， 则 没有 这 样 做 的 任何 理由 。@: 可 以 从 Nu _ 

Salesv1 或 sales 中 得 到 回答 ， 而 2 只 能 从 sales Salesy1 ae 

中 得 到 回答 。 每 一 个 这 样 的 关系 都 用 通过 从 查询 到 支 

持 它们 的 视图 的 向 下 路 径 来 表示 ， 如 图 20-22 所 示 。 口 Tales 


将 查询 放 在 视图 格 中 可 以 帮助 设计 数据 立方 体 数 图 20-22 例 20.19 中 视图 的 格 和 查询 
据 库 。 一 些 最 近 开 发 的 用 于 数据 立方 体 的 设计 工具 ， 
从 它们 认为 目前 应 用 中 非常 典型 的 一 个 查询 集合 开始 ， 然 后 选择 一 个 视图 集合 来 物化 ， 使 每 一 
个 查询 至 少 在 一 个 视图 的 上 面 ， 最 好 与 它 相同 或 非常 接近 ( 即 查询 和 视图 在 大 部 分 维 中 使 用 相 
同 的 分 组 )。 
20.5.4 习题 
习题 20.5.1 ”如 果 事 实 表 具有 下 列 的 特点 ， 则 cUBE (F) 的 大 小 与 F 的 大 小 的 比率 是 多 
少 ? 
* 5F 有 10 个 维 属性 ， 每 一 个 维 属性 有 10 个 不 同 的 值 。 
b) F 有 10 个 维 属性 ， 每 一 个 维 属性 有 两 个 不 同 的 值 。 
习题 20.5.2 使 用 例 20.17 中 的 立方 体 cUBE ( sales )， 它 是 从 下 列 关 系 中 构建 的 
Sales(model, color, date, dealer, val, cnt} 
说 明 我 们 使 用 立方 体 的 哪些 元 组 来 回答 下 列 查询 ， 
* a) 为 每 一 位 代理 商 查 找 蓝 色 汽车 的 总 销售 额 。 
b) 查找 代理 商 “Smilin Sally” 所 卖 的 绿色 Gobi 的 总 数量 。 
| c) 查找 每 一 位 代理 商 在 2000 年 3 月 的 每 一 天 所 卖 的 Gobi 的 平均 数量 。 


*! 习题 20.5.3 ”在 习题 20.4.1 中 ， 我 们 提 到 将 PC 定货 单数 据 组 织 成 一 个 立方 体 。 如 果 我 们 要 
使 用 CUBE 操 作 符 ， 可 能 会 发 现 将 几 个 维 进行 更 细 的 分 解 会 更 方便 。 例 如 ， 我 们 不 使 用 一 
个 处 理 器 维 ， 而 是 对 每 一 种 型 号 都 有 一 个 维 ( 如 ，AMD K-6 或 奔腾 -IV )， 为 速度 建立 男 一 
个 维 。 提 出 维和 依赖 属性 的 集合 ， 我 们 将 用 它们 获得 多 种 聚集 查询 的 回答 。 特 别 地 ， 顾 客 
扮演 什么 角色 ? 另外 ， 一 台 机 器 的 价格 参考 习题 20.4.1 中 的 价格 ， 且 几 个 相同 机 器 可 在 一 
个 元 组 内 进行 定购 。 用 什么 作为 依赖 属性 ? 
习题 20.5.4 你 将 使 用 习题 20.5.3 中 的 什么 元 组 来 回答 下 列 查询 : 
a) 对 每 一 种 处 理 器 速度 ， 查 找 2002 年 每 一 个 月 内 定购 的 计算 机 的 数量 。 
b) 为 每 一 种 硬盘 类 型 ( 如 SCSI 或 IDE ) 和 每 一 种 处 理 器 类 型 ， 列 出 所 定购 的 计算 机 的 
数量 。 
c) 查找 自从 2001 年 1 月 以 来 每 一 个 具有 1500 MHz 处 理 器 的 计算 机 的 平均 价格 。 
习题 20.5.5 ”习题 20.5.3 的 立方 体 所 描述 的 计算 机 不 包括 显示 器 。 你 会 建议 使 用 什么 维 来 表 
RERA? 可 以 假设 显示 器 的 价格 包含 在 计算 机 的 价格 之 内 。 
习题 20.5.6 ”假设 一 个 立方 体 有 10 个 维 ， 且 每 一 维 有 5 种 聚集 粒度 的 选择 ， 包 括 “ 无 聚集 ” 
和 “全 部 聚集 ”。 通 过 在 每 一 维 中 选择 一 个 粒度 ， 我 们 能 创建 多 少 不 同 的 视图 ? 
习题 20.5.7 ”说明 如 何 将 下 列 的 时 间 单 元 加 到 图 20-20 的 格 中 小时、 分 、 秒 、 两 周 、 十 年 
和 世纪 。 
习题 20.5.8 ”如何 改变 图 20-21 中 的 代理 商 格 ， 使 得 包含 “区 域 "， 如 果 : 
a) 区 域 是 州 的 集合 。 
* b) 区 域 不 与 州 匹配 ， 但 每 一 个 城市 在 一 个 区 域 中 。 
0) 区 域 与 地 区 代码 类 似 ， 每 一 个 区 域 都 包含 在 一 个 州 内 ， 一 些 城市 在 两 个 或 更 多 区 域 
H, 一些 区 域 包括 几 个 城市 。 
! 习题 20.5.9 ”在 习题 20.5.3 中 ， 我 们 设计 了 一 个 立方 体 ， 适 用 cUBE 操 作 符 。 但 是 ， 也 可 以 
给 一 些 维 赋予 非 平凡 的 格 结构 。 特 别 地 ， 处 理 器 类 型 可 以 根据 制造 商 CSUN, Intel, 
AMD 和 Motorola )、 系 列 号 (如 SUN UltraSparc, Intel Pentium 或 Celeron, AMD K- 系 列 ， 
或 Motorola G- 系 列 ) 和 型 号 ( 如 Pentium-IV 或 AMD K-6 ) 进行 组 织 。 
a) 根据 上 面 的 描述 设计 处 理 器 类 型 的 格 。 
b) 定义 一 个 视图 ， 使 其 根据 系列 号 对 处 理 器 分 组 ， 根 据 类 型 对 硬盘 进行 分 组 ， 对 根据 
速度 CD 进行 分 组 ， 并 对 所 有 其 他 属性 进行 聚集 。 
c) 定义 一 个 视图 ， 使 其 根据 制造 商 对 处 理 器 进行 分 组 ， 对 根据 速度 硬盘 进行 分 组 ， 对 
除 主 存 以 外 的 任何 其 他 属性 进行 聚集 。 
d 给 出 查询 示例 ， 使 其 分 别 只 能 从 (b) 的 视图 中 得 到 回答 ， 只 能 从 (c) 的 视图 中 得 到 回 
答 ,或 从 二 者 都 能 得 到 回答 ， 或 从 二 者 都 得 不 到 回答 。 
! 习题 20.5.10 ”如 果 我 们 对 其 使 用 CUBE 操 作 符 的 事实 表 F 是 稀 琉 的 ( 即 F 的 元 组 比 每 一 维 可 
能 的 值 的 数目 乘积 小 得 多 )， 则 CUBE (F) 的 大 小 与 F 的 大 小 的 比率 可 能 会 非常 大 。 这 个 比 
率 能 有 多 大 ? 


20.6 数据 挖掘 


一 系列 被 称 为 数据 挖 振 或 数据 库 中 知识 发 现 的 数据 库 应 用 已 经 引起 了 相当 的 重视 ， 因 为 这 
些 应 用 提供 了 从 现 有 数据 库 中 获取 不 寻常 事实 的 条 件 。 数 据 控 气 查 询 可 被 想像 成 决策 支持 查询 


* 
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的 扩展 形式 ， 虽 然 二 者 的 区 别 是 非 形 式 的 (参看 “数据 控 掘 查询 和 决策 支持 查询 ” 框 )。 数 据 
挖掘 着 重 于 传统 数据 库 系 统 的 查询 优化 和 数据 管理 部 分 ， 对 数据 库 语 言 也 提出 一 些 重要 扩充 。 
在 本 节 中 ， 我 们 将 考查 数据 挖掘 应 用 的 主要 发 展 方向 。 而 后 ， 我 们 将 集中 于 称 作 “频繁 项 目 
集 ” 的 问题 ， 这 种 问题 已 从 数据 库 的 观点 得 到 极 大 的 关注 。 


数据 挖 据 查 询 和 决策 支持 查询 
虽然 决策 支持 查询 需要 检查 和 聚集 数据 库 中 大 部 分 数据 ， 提 出 查询 的 分 析 人 员 通 党 
会 准确 地 告诉 系统 执行 什么 查询 ， 即 集中 在 数据 的 哪 一 部 分 。 数 据 挖 所 查询 向 前 进 了 一 
步 ， 引 入 系统 以 决定 应 集中 于 数据 的 哪 一 部 分 。 例如， 一 个 决策 支持 查询 可 能 会 问 “ 根 


据 颜色 和 年 份 对 Aardvark 汽 车 销售 额 进行 聚集 "， 而 一 个 数据 挖 报 查询 可 能 会 问 “ 哪 一 个 
因素 对 Aardvark 销 售 额 影响 最 大 ? ”。 数 据 挖掘 查询 的 朴素 实现 将 引起 许多 决策 支持 查询 
的 执行 ， 且 可 能 需 很 长 时 间 才 能 完成 ， 因 而 朴素 方法 是 完全 不 可 行 的 。 


20.6.1 数据 挖掘 的 应 用 

广泛 地 讲 ， 数 据 挖 握 查 询 查找 数据 的 有 用 汇总 ， 而 经 常 不 提供 最 好 地 获得 这 些 汇 总 的 参数 
值 。 因 此 ， 这 种 问题 需要 重新 考虑 将 数据 库 系统 用 于 提供 对 数据 这 样 理 解 的 方法 。 下 面 是 一 些 
数据 量 非常 巨大 的 应 用 及 其 要 解决 的 问题 。 因 为 在 许多 这 些 问 题 中 如 何 最 好 地 使 用 DBMS 是 未 
解决 的 ， 我 们 将 不 讨论 对 这 些 问 题 的 解决 方案 ， 只 说 明 它 们 为 何如 此 困难 。 在 20.6.2 节 中 ,我 
们 将 讨论 已 取得 进展 的 那些 问题 ， 在 那里 我 们 将 看 到 一 种 非 平 凡 、 面 向 数据 库 的 解决 方法 。 
决策 树 构造 

数据 用 户 想 在 数据 中 发 现 一 种 决定 重要 问题 的 方法 。 例 如 ， 例 14.7 为 我 们 引入 可 作为 一 种 
有 意义 的 数据 挖掘 问题 的 基础 :“ 谁 买 金 首 饰 ? ”。 在 那个 例子 中 ,我 们 只 考虑 顾客 的 两 个 特 
4E: 他 们 的 年 龄 和 收入 ， 但 是 ， 现 在 的 顾客 数据 库 记 录 更 多 的 顾客 信息 ， 或 从 合法 数据 源 获 得 
信息 ， 而 后 将 它们 与 顾客 数据 一 起 集成 到 数据 仓库 。 这 些 属 性 有 顾客 的 邮政 编码 、 婚 姻 状 况 、 
有 房 或 租房 以 及 有 关 他 或 她 最 近 购 买 的 其 他 物品 数目 的 信息 ， 等 等 。 

不 像 例 14.7 中 的 数据 只 包括 已 知 的 购买 珠宝 的 人 的 信息 ， 决 策 树 是 一 种 树 ， 用 于 将 数据 分 
成 两 个 集合 ， 我 们 可 将 这 两 个 集合 想像 为 “接受 ”和 “拒绝 ”。 就 珠宝 例子 来 说 ， 数 据 是 有 关 
人 的 信息 ， 接 受 集合 将 是 我 们 认为 可 能 会 买 珠 宝 的 那些 人 ， 而 拒绝 集合 则 是 我 们 认为 可 能 不 买 
珠宝 的 那些 人 。 如 果 我 们 的 预测 是 可 靠 的 ， 则 我 们 拥有 一 个 目标 群体 ， 可 将 珠宝 广告 直接 邮寄 
给 他 们 。 

决策 树 自身 与 图 14-13 类 似 ， 但 是 在 叶 结 点 没有 真实 数据 。 即 ， 每 一 个 内 部 结 点 有 一 个 属 
性 和 一 个 作为 阔 值 的 值 ， 结 点 的 子 结 点 要 人 么 是 其 他 内 部 结 点 ， 要 么 是 一 个 决策 ; 接受 或 拒绝 。 
一 个 给 定 的 表示 要 分 类 的 数据 的 元 组 ， 它 在 树 中 向 下 传递 ， 每 一 步 根据 此 元 组 在 那个 结 点 所 提 
及 的 属性 的 值 ， 决 定向 左 走 或 向 右 走 ， 直 到 到 达 一 个 决策 结 点 。 

树 是 通过 结果 已 知 的 元 组 训练 集 来 构造 的 。 在 珠宝 例子 中 ,我们 使 用 顾客 数据 库 ， 包 括 有 
关 哪 些 顾客 已 购 珠宝 哪些 未 购 的 信息 。 数 据 挖掘 问题 是 从 这 些 数据 中 设计 决策 树 ， 它 能 最 可 靠 
地 决定 ， 一 个 新 顾客 ， 我 们 已 知 其 属性 ( 年龄 ， 收 入 等 )， 是 否 可 能 购买 珠宝 。 即 ， 我 们 必须 
决定 放 在 树 根 的 最 佳 属性 4， 以 及 那个 属性 的 一 个 最 佳 赠 值 y。 那 么 ， 当 决策 向 左 走时 ， 我 们 为 
4< 的 那些 顾客 找到 最 佳 属 性 和 靖 值 ;对 4 =v 的 那些 顾客 也 进行 同样 的 操作 。 每 一 层 都 面临 相 
同 问题 ， 直 到 我 们 不 再 能 向 树 添加 有 用 结 点 (因为 到 达 一 个 给 定 结 点 的 训练 数据 实例 太 少 ,我 
们 不 能 做 出 有 用 的 决策 )。 我 们 设计 每 一 个 结 点 时 所 问 的 查询 与 很 多 数据 的 聚集 有 关 ， 因 此 我 
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们 能 决定 哪 一 个 属性 - 阔 值 对 划分 数据 ， 从 而 “接受 ”的 
最 大 部 分 去 一 边 ,“ 拒 绝 ” 去 另 一 边 。 
Rik 

A RAGS “RR” AK, RREAK 
据 项 分 组 ， 使 其 成 为 数目 不 多 的 几 个 组 ， 而 每 一 组 都 有 一 
些 重要 的 共性 。 图 20-23 表 示 了 二 维 数据 的 全 签 ， 而 实际 中 
维 的 数目 可 能 会 很 大 。 在 这 个 图 中 ， 我 们 表示 了 最 好 的 三 
个 夷 禾 的 近似 轮廓 ， 而 一 些 点 则 离 任 何 聚 簇 的 中 心 都 很 远 ， 
可 将 这 些 点 视 为 “孤立 点 ”或 与 最 近 情 悉 分 组 在 一 起 。 

以 Web 搜 索引 擎 作为 一 种 应 用 示例 。Web 搜 索引 擎 经 
常 找 到 几 十 万 个 匹配 一 个 给 定 查询 的 文档 。 为 帮助 组 织 这 图 20-23 ZAREN =A RE 
些 文档 , 搜索 引擎 可 根据 它们 使 用 的 单词 将 它们 聚 簇 。 如 ， 
搜索 引擎 可 将 文档 放 人 一 个 空间 中 ， 对 每 一 个 可 能 用 到 的 单词 ， 在 这 个 空间 中 都 有 一 维 与 它 
对 应 ， 可 能 要 排除 最 常用 的 单词 (中止 词 )， 如 “and” 和 “the”， 这 些 词 可 能 会 出 现在 所 有 的 
文档 中 ， 并 不 告诉 我 们 任何 内 容 。 根 据 任何 特定 词 的 出 现 频率 ( 用 小 数 表示 ) 将 文档 放 入 空 
间 。 如 ， 如 果 文 档 有 1000 个 词 出 现 ， 其 中 两 个 是 “数据 库 ”， 则 将 文档 放 在 与 “数据 库 ” 对 应 
的 那 一 维 的 0.002 坐 标 处 。 通 过 将 文档 在 此 空间 聚 簇 ， 我 们 能 得 到 谈论 相同 事情 的 文档 组 。 例 
如 ， 谈 论 数据 库 的 文档 可 能 会 出 现 诸如 “数据 ”"、“ 锁 ”等 词 ， 而 有 关 棒 球 的 文档 则 不 大 可 能 
出 现 这 些 词汇 。 

这 里 的 数据 挖掘 问题 是 使 用 数据 且 选 择 聚 徐 的 “均值 ”或 “中 心 "。 聚 徐 数 目 通 常事 先 给 
定 ， 尽 管 这 个 数目 也 可 通过 数据 控 掘 过 程 来 选择 。 对 这 两 种 方法 的 任 一 种 ， 如 果 使 用 朴素 算法 
来 选择 中 心 ， 使 一 个 点 到 离 它 最 近 的 中 心 的 距离 最 小 ， 都 包含 许多 查询 ， 每 一 个 这 样 的 查询 都 
要 进行 复杂 的 聚集 。 

20.6.2 寻找 频繁 项 目 集 

现在 ， 我 们 将 看 到 一 种 有 效 地 使 用 二 级 存储 的 算法 的 数据 挖掘 问题 已 经 开发 出 来 。 这 种 寻 
找 所 谓 “频繁 项 目 集 ” 的 问题 ， 就 其 主要 应 用 是 最 易 描 述 的 : 对 商场 -购物 和 数据 的 分 析 。 现 
在 商场 常 在 数据 仓库 中 记录 顾客 同时 买 哪 些 物品 ， 即 顾客 扒 着 盛 满 他 或 她 所 买 物品 的 购物 公 走 
向 收 款 台 ， 收 银 员 将 所 有 这 些 物品 记录 下 来 ， 作 为 单个 事务 的 一 部 分 。 因 此 ， 即 使 我 们 对 顾客 
一 无 所 知 ， 不 能 说 出 这 位 顾客 是 否 会 回来 买 其 他 物品 ， 但 我 们 确实 知道 一 位 顾客 同时 买 的 某 
些 物品 。 

如 果 有 些 物 品 比 预计 的 更 经 常 同时 出 现在 商场 购物 德 中 ， 则 商场 可 获得 一 些 有 关 它 的 顾客 
可 能 如 何在 商场 内 寻找 物品 的 信息 。 将 这 些 物品 放 在 商场 中 ， 以 便 顾客 沿 某 些 路 径 在 商场 内 走 
动 ， 并 将 有 吸引 力 的 物品 沿 这 些 路 径 放置 。 

例 20.22 ”由 几 个 人 声明 的 一 个 著名 例子 是 发 现 购买 尿布 的 人 总 是 要 买 啤酒 。 已 经 提出 一 
些 理 论 解释 为 什么 这 种 关系 是 真实 的 ， 其 中 一 种 可 能 是 购买 尿布 的 人 家 里 有 娶 儿 ， 晚 上 不 可 能 
出 去 到 酒吧 ， 因 此 常常 在 家 里 喝 啤 酒 。 商 场 可 以 使 用 这 个 事实 ， 即 许多 顾客 会 从 商场 卖 尿布 的 
地 方 走 到 卖 啤酒 的 地 方 ， 或 反 向 。 聪 明 的 商场 人 员 会 将 啤酒 和 尿布 临近 放置 ， 将 土豆 片 放 在 中 
间 。 据 说 这 三 种 物品 的 销量 都 有 所 增加 。 o 


我 们 可 以 用 一 个 关系 


Baskets (basket, item) 
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表示 商场 购物 管 数 据 ， 第 一 个 属性 是 “购物 翁 ID”， 即 一 个 商场 中 的 购物 管 的 惟一 标识 ， 第 二 
个 属性 是 在 该 购物 管内 出 现 的 某 些 物品 的 ID。 注 意 ， 关 系 是 否 来 自 真正 的 商场 购物 管 这 一 点 并 
不 重要 ， 它 可 以 来 自我 们 想 发 现 关联 项 目的 任何 数据 。 例 如 , “购物 答 ” 可 以 为 文档 ， 而 物品 
为 单词 ， 在 这 种 情况 下 ， 我 们 其 实 是 在 查找 同时 出 现在 许多 文档 中 的 单词 。 

频繁 出 现在 商场 购物 禾 数 据 中 最 简单 的 项 目 集 形式 是 物品 集合 。 物 品 集合 {i, i,- , i, ] 的 
重要 性 可 能 相 异 。 我 们 可 能 查找 的 最 基本 特性 是 所 有 物品 都 出 现 的 购物 复数 目 是 巨大 的 。 对 物 
品 集合 的 支持 度 是 其 所 包含 的 物品 都 出 现 的 购物 复数 目 。 找 高 支持 度 物 品 集合 的 问题 是 给 定 一 
个 阐 值 s， 找 出 所 有 那些 物品 集合 ， 它 们 至 少 具有 支持 度 s。 

如 果 数 据 库 中 物品 数目 很 多 ， 即 使 我 们 将 注意 力 局 限 在 小 集合 中 ， 如 考虑 物品 对 ， 计 算 所 
有 物品 对 的 支持 度 所 需 的 时 间 也 极 长 。 因 此 ， 这 种 直接 求解 高 支持 度 对 的 方法 一 对 每 一 对 物 
品 ; 和 j)， 计 算 支 持 度 ， 如 图 20-24 的 查询 所 示 一 一 将 是 不 可 行 的 。 这 个 查询 包括 将 Baskets 进 行 
自 连 接 ， 按 结果 元 组 中 出 现 的 两 个 物品 对 结果 ， 去 掉 购 物 公 数 低 于 阔 值 * 的 那些 组 。 注 意 ， 
WHERE 子 句 中 的 条 件 I.item < J.item， 是 为 防止 对 间 一 个 物品 对 考虑 两 种 顺序 关系 ， 或 
对 同一 个 物品 重复 两 次 组 成 的 对 根本 不 考虑 。 








SELECT I.item, J.item, COUNT(I.basket) 
FROM Baskets I, Baskets J 
WHERE I.basket = J. basket AND 


I.item < J.item 
GROUP BY I.item, J.item 
HAVING COUNT(I.basket) >= s; 


图 20-24 寻找 高 支持 度 物 品 对 的 朴素 方法 





关联 规则 
一 个 更 复杂 的 购物 篮 数据 挖 握 搜索 是 形式 为 | ,2…,i;| SHARR, ARRAN 
式 存在 的 有 用 规划， 我们 所 需要 的 两 个 属性 可 能 是 ; 
1. TRE: 在 一 个 包含 集会 {ii,i,…, 识 } 中 所 有 物品 的 购物 管 中 找 到 物品 j 的 概率 大 于 
某 一 阔 值 ， 如 50%， 即 “至 少 50% 买 尿布 的 人 买 啤酒 ”。 
2. 重要 性 : 在 包含 集合 {liz,…,i} 中 所 有 物品 的 购物 芝 中 找到 物品 j 的 概率 与 在 任 一 


随机 购物 中 找到 物品 /的 概率 相 比 ， 前 者 比 后 者 高 得 多 或 低 得 多 。 用 统计 术语 ， 即 六 
[iio,…,in} 要 么 正 相关 ， 要么 负 相 关 。 例 20.22 中 的 发 现 其 实 是 规则 {尿布 3 啤酒 有 很 大 的 
重要 性 。 

注意 ， 即 使 一 条 规则 有 很 高 的 可 信和 度 和 重要 性 ， 若 有 关 物 品 集合 没有 高 支持 度 ， 它 
也 是 没有 用 的 。 原 因 在 于 如 果 支 持 度 低 ， 则 规则 实例 数 不 大 ， 这 限制 了 使 用 这 条 规则 的 
策略 的 益处 。 





20.6.3 A-Priori 算 法 
当 支 持 度 阅 值 非常 大 ， 以 至 很 少 有 对 能 达到 时 ， 对 类 似 图 20-24 的 查询 ， 有 一 种 优化 方法 
可 以 显著 降低 其 运行 时 间 。 将 阐 值 设 定 为 很 高 是 合理 的 ， 因 为 成 千 上 万 的 “对 ”列表 不 会 有 任 
何 用 处 ， 我 们 想 让 数据 挖掘 查询 将 我 们 的 注意 力 集中 于 数目 很 小 的 最 佳 候选 对 上 。 A-Priori 算 
法 基于 以 下 观察 : 
* 如果 物品 集合 X 的 支持 度 为 s， 则 X 的 任 一 子 集 的 支持 度 必须 至 少 为 s。 特 别 地 ， 如 果 一 对 


物品 ， 如 {， 万 ， 出 现在 1000 个 购物 管 中 ， 则 我 们 知道 至 少 有 1000 个 购物 能 有 物品 ;， 至 
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上 述 规则 的 逆 是 ， 如 果 我 们 寻找 具有 支持 度 至 少 为 * 的 物 唱 对， 可 以 将 任何 自身 不 出 现在 
至 少 s 个 购物 黎 中 的 物品 排除 在 外 。A-Priori 算 法 是 这 样 回 答 与 图 20-24 中 相同 的 查询 的 : 

1. 首先 寻找 “OK” 物 品 集合 ， 即 那些 本 身 出 现在 足够 多 的 购物 禾 中 的 物品 集合 。 

2. 只 对 OK 集合 中 的 每 一 个 物品 执行 图 20-24 的 查询 。 

图 20-25 中 的 两 个 SQL 查 询 序 列 对 A-Priori 算 法 进行 了 概述 ; 它 首先 计算 candidates ， 即 
是 Baskets 关 系 的 一 个 子 集 ， 这 个 子 集中 的 物品 本 身 有 高 支持 度 ， 而 后 对 candigdates 执 行 
自 连接 ， 如 图 20-24 中 的 朴素 算法 。 





INSERT INTO OkBaskets 
SELECT * 
FROM Baskets 
WHERE item IN ( 
SELECT item 
FROM Baskets 
GROUP BY item 
HAVING COUNT(*) >= s 
J); 


SELECT I.item, J.item, COUNT(I.basket) 
FROM candidates I, candidates J 
WHERE I.basket = J.basket AND 
I.item < J.item 
GROUP BY I.item, J.item 
HAVING COUNT(*) >= s; 


图 20-25 A-Priori 算 法 在 找 高 支持 度 对 之 前 先 找 高 支持 度 物 品 


例 20.23 为 说 明 A-Priori 算 法 如 何 有 效 ， 考 虑 一 个 销售 10 000 种 不 同 物品 的 超市 。 假 设 商 
场 购物 修平 均 有 20 件 物品 ， 并 假设 数据 库存 储 1 000 000 个 购物 颂 作 为 数据 〈 与 实际 存储 相 比 ， 
这 是 个 小 数目 )。 

Baskets 关 系 有 20 000 000 个 元 组 ， 图 20-24 中 的 连接 (朴素 算法 ) 有 190 000 000 对 ， 这 
个 数字 表示 100 万 个 购物 偿 乘 以 (好 ])， 即 190 个 物品 对 ， 必 须 对 所 有 这 190 000 000 个 元 组 进行 分 
组 和 计算 。 

但 是 ,假设 s 是 10 000， 即 购物 公 的 1%。 多 于 20 000 000/10 000 = 2000 件 物品 出 现在 至 少 
10 000 个 购物 德 中 是 不 可 能 的 ， 因 为 Baskets 中 只 有 20 000 000 个 元 组 ， 且 出 现在 10 000 个 购 
物 复 中 的 任何 物品 出 现在 至 少 10 000 个 元 组 中 。 因 此 ， 如 果 我 们 使 用 图 20-25 中 的 A-Priori 算 法 ， 
寻找 高 支持 度 物品 的 子 查询 不 能 产生 多 于 2000 件 物品 ， 产 生 的 物品 数 可 能 比 2000 少 得 多 。 

我 们 不 能 确定 candidates 有 多 大 ， 因 为 在 最 坏 的 情况 下 ， 出 现在 购物 公 中 的 所 有 物品 将 
会 出 现在 至 少 1% 的 购物 禾 中 。 但 是 实际 上 ， 如 果 s 很 大 ，candi gates 将 大 大 小 于 Baskets。 
为 了 讨论 方便 ， 假 设 candiadaates 中 每 个 公平 均 有 10 件 物品 ， 即 为 Baskets 大 小 的 一 半 ， 则 
在 步骤 2 中 ，candidates 与 自身 的 连接 有 1 000 000 x (2) =45 000 000 个 元 组 ， 比 Baskets 自 
连接 的 元 组 的 1/4 还 少 。 从 而 ， 我 们 可 以 期 望 A-Priori 算 法 的 运行 时 间 大 约 是 朴素 算法 的 运行 时 
间 的 /4。 通 常情 况 下 ， Candidates 的 元 组 数 比 Baskets 元 组 数目 的 一 半 还 少 得 多 ， 并 会 有 
更 大 的 性 能 提高 ， 性 能 随 参 与 连接 的 元 组 数目 减少 而 成 二 次 方 地 增长 。 口 
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20.6.4 习题 
习题 20.6. 如 图 20-26 ， 给 定 8 个 “Wy TE” 


B, = {milk, coke, beer} 

B> = {milk, pepsi, juice} 

B; = {milk, beer} 

Ba = {coke, juice} 

Bs = {milk, Pepsi, beer} 

Be = {milk, beer, juice, pepsi} 


B; = {coke, beer, juice} 


Bs = {beer, pepsi} 
图 20-26 购物 篮 数据 例子 


* a) 集合 {beer，juice} 的 支持 度 是 多 少 ? 以 篮子 的 百分比 表示 出 来 。 
b) 集合 {coke，pepsi} 的 支持 度 是 多 少 ? 

* ¢) 给 定 了 beer、mikk 的 置信 和 度 是 多 少 ?( 也 就 是 说 ， 关 联 规则 {beer}=>milk ) 

d) 给 定 了 milk、juice 的 置信 和 度 是 多 少 ? 

e) 给 定 beer 和 juice、coke 的 置信 和 度 是 多 少 ? 

f) 如 果 支 持 度 的 阐 值 是 35% ( 也 就 是 说 ，8 个 篮子 中 3 个 是 必须 的 )， 哪 一 对 项 目 是 频 
繁 的 ? 

2) 如 果 支 持 度 的 赋 值 是 50% ， 哪 对 项 目 是 频繁 的 ? 

! 习题 20.6.2 a-priori 算 法 也 可 以 用 在 寻找 项 目 数 大 于 2 的 频繁 集合 。 回 想 规 律 :一 个 含有 k 个 
项 目的 集合 X 不 会 拥有 至 少 s 支 持 度 ， 除 非 每 个 X 的 真子 集 有 至 少 s 支 持 度 。 特 别 地 ，X 大 小 
为 -1 的 子 集 必须 都 有 至 少 s 的 支持 度 。 所 以 ， 找 到 了 大 小 为 -1 的 频繁 项 目 集 (至少 是 有 s 
支持 度 的 集合 ) 后 ， 可 以 定义 大 小 为 的 候选 集合 有 k 个 项 目 ， 而 且 所 有 它 的 k-1 大 小 的 子 
集 至 少 有 s 支 持 度 。 给 定 大 小 为 -1 的 项 目 集 , 请 编写 SQL 查 询 ， 先 计算 出 大 小 为 k 的 候选 集 ， 
然后 计算 大 小 为 的 频繁 项 目 集 。 
习题 20.6.3 使 用 习题 20. 6. 1 的 篮子 ， 回 答 下 面 问题 : 

a) 如 果 支 持 度 的 阔 值 是 35%， 候 选 三 元 集合 是 什么 ? 
b) 如 果 支 持 度 的 阔 值 是 335% ， 那 些 三 元 集合 是 频繁 的 ? 


20.7 小 结 


“信息 集成 : 常常 存在 多 种 多 样 的 数据 库 或 其 他 包含 相关 信息 的 信息 源 。 我 们 可 以 将 这 些 
数据 源 组 合成 一 个 。 但 是 模式 经 常 是 异 构 的， 这 种 不 相 容 性 表现 在 值 的 不 同类 型 、 代 码 
或 值 的 约定 、 概 念 的 解释 以 及 不 同 模式 中 表示 的 不 同 概念 集合 。 

"信息 集成 方法 : 早期 的 方法 涉及 “联邦 " ， 每 一 个 数据 库 可 以 通过 其 他 数据 库 能 理解 的 术 
语 来 访问 其 他 数据 库 。 最 近 的 方法 涉及 数据 仓库 ， 数 据 转换 成 全 局 模式 ， 而 后 拷贝 到 数 
据 仓 库 中 。 男 一 种 可 选用 的 方法 是 使 用 协调 器 ， 创 建 一 个 虚拟 数据 仓库 ， 人 允许 查询 全 局 
模式 ， 然 后 将 对 全 局 模式 的 查询 翻译 为 数据 源 的 术语 。 

“抽取 器 和 包装 器 : 数据 仓库 和 协调 器 要 求 在 每 一 个 数据 源 都 有 分 别 被 称 为 抽取 器 和 包装 
器 的 组 件 ， 其 主要 作用 是 在 全 局 模式 和 数据 源 的 局 部 模式 之 间 翻 译 查 询 和 查询 结果 。 
“包装 器 生成 器 ; 设计 包装 器 的 一 种 方法 是 使 用 模板 ， 模 板 描述 如 何 将 一 个 特定 形式 的 查 
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询 从 全 局 模式 翻译 为 局 部 模式 。 将 这 些 模板 制作 成 表 ， 由 引擎 解释 ， 引 擎 用 来 将 查询 与 
模板 进行 匹配 。 引 擎 也 能 将 模板 以 各 种 方式 进行 组 合 、 和 /或 执行 额外 工作 如 过 滤 以 回答 
更 复杂 的 查询 。 

“OLAP: 数据 仓库 的 一 种 重要 应 用 是 在 数据 源 执行 事务 处 理 的 同时 ， 能 够 提出 与 所 有 或 
很 多 数据 有 关 的 复杂 查询 。 这 些 查询 通常 涉及 数据 的 聚集 ， 被 称 作 在 线 分 析 处 理 查询 或 
OLAP 查 询 。 

， ROLAP 和 MOLAP: 当 建 立 用 于 OLAP 的 数据 仓库 时 ， 将 数据 想像 成 立方 体 ， 维 对 应 于 要 
表示 的 数据 的 独立 特征 ， 这 样 做 经 常 是 很 有 用 的 。 支 持 这 样 的 数据 视图 的 系统 或 者 采用 
关系 的 观点 ( ROLAP,， 或 关系 OLAP 系 统 )， 或 者 特 化 为 数据 立方 体 (MOLAP, 或 多 维 
OLAP 系 统 )。 

， 星 型 模式 : 如 果 使 用 ROLAP 方 法 ， 每 一 个 数据 元 素 ( 如 一 件 物品 的 销售 额 ) 在 一 个 称 作 
事实 表 的 关系 中 进行 表示 ， 而 帮助 解释 沿 每 一 维 的 值 的 信息 如 哪 种 产品 是 物品 1234? ) 
存储 在 为 每 一 维 所 建立 的 维 表 中 。 这 种 形式 的 数据 库 模式 被 称 作 星 型 模式 ， 事 实 表 是 星 
的 中 心 ， 而 维 表 是 点 。 

“立方 体操 作 符 ， 当 使 用 MOLAP 方 法 时 ， 一 种 沿 维 的 所 有 子 集 对 事实 表 进 行 预先 聚集 的 操 
作 符 特别 有 用 。 它 并 不 增加 事实 表 所 需 空间 ， 且 极 大 地 提高 许多 回答 OLAP 查 询 的 速度 。 

“ 维 格 和 物化 视图 : 在 一 些 数据 立方 体 实现 中 ， 一 种 比 CUBE 更 强 有 力 的 方法 是 建立 沿 每 一 
维 所 进行 的 聚集 粒度 的 格 (如 ,不 同 的 时 间 单 位 ， 日 、 月 和 年 )。 然 后 ,设计 数据 仓库 时 ， 
将 一 些 沿 不 同 维 以 不 同方 法 聚集 的 视图 进行 物化 ， 并 使 用 最 接近 的 视图 来 回答 一 个 给 定 
的 查询 。 

“数据 挖掘 : 数据 仓库 也 可 用 于 更 广泛 的 问题 ， 这 些 问题 不 仅 涉 及 按 命令 进行 聚集 ( 如 在 
OLAP 查 询 中 )， 而 且 搜索 “正确 的 ”聚集 。 数 据 挖掘 的 常见 类 型 包括 将 数据 聚 篮 成 相似 
组 ， 设 计 决 策 树 来 预测 基于 其 他 属性 值 的 一 个 属性 ， 寻 找 与 同时 出 现 的 对 或 更 大 的 值 组 
合 有 关 的 关联 规则 。 

“A-Priori 算 法 ， 寻找 关联 规则 的 一 种 有 效 算法 是 使 用 A-Priori ， 这 种 技术 使 用 这 样 一 种 事 
实 ， 即 如 果 一 个 集合 经 常 发 生 ， 则 它 的 任何 子 集 也 是 如 此 。 
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Abiteboul, §.21, 187, 1099 

Abort (天 折 ), 885, 970, 1017, 1026 

参见 回 滚 ( Rollback ) 

ABSOLUTE, 361 

Achilles, A. -C. , 21 

ACID properties (ACID 性 质 )，14 

参见 原子 性 ( Atomicity )， 一 致 性 〈《Consistency ), 
持久 性 (Durability ), Mat (Isolation ) 

ACR schedule, #4 B£ 

人 参见 连锁 回 滚 (cascading rollback ) 

Action ( 动作 )，340 

ADA, 350 

ADD, 294 

Addition rule ( 附加 规则 )，101 

Address, Hid 

参见 数据 库 地 址 (Database address )， 转 存 地 址 
( Forwarding address )， 逻 辑 地 址 (Logical 
address )， 内 存 地 址 ( Memory address )， 物 理 
Hi hE ( Physical address)， 结 构 化 地 址 
( Structured address )， 虚 拟 内 存 ( Virtual 
memory ) 

Address space《 地 址 空间 )，509，582，880 

Adornment ( 装饰 )，1066，1068 

AFTER (AFTER ), 341 ~ 342 

Aggregation ( RÆ ), 221 ~ 223, 497~ 499 

参见 求 平 均 (Average), 8 (Count), 44 
(Group by), AKE (Maximum), BMA 
(Minimum )， 和 ( Sum) 

Aggregation operator ( REER ), 807 

参见 立方 体操 作 符 ( Cube operator ) 

Agrawal, R. , 1099 

Aho, A. V., 474, 530, 726, 789, 852 

Algebra (代数 )，192 ~ 193 

参见 关系 代数 (Relational algebra ) 

Algebraic law ( 代数 定律 ) 795 ~ 810，818 ~ 820 


O 索引 中 显示 的 页 码 与 正文 中 边栏 数字 相 呼应 。 
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Alias, 3% 

人 参见 AS 

ALL, 266, 278, 437 

ALTER TABLE, 294, 334 ~ 335 

Anomaly, ## 

参见 删除 异常 ( Deletion anomoly), TẸ 
(Redundancy )， 修 改 异 常 ( Update anomaly ) 

Anonymous variable ( 匿名 变量 )，466 

ANSI, 239 

Antisemijoin ( 逆 半 连接 )，213 

ANY, 266 

Application server ( 应 用 服务 器 )，7 

A-priori algorithm ( A-priori 算 法 )，1093 ~ 1096 

Apt, K., 502 

Archive (备份 )，875 ~ 876, 909 ~ 913 

Arithmetic atom ( 算术 原子 )，464 

Armstrong, W.W. 129 

Armsttong’s axioms ( Armstrongs ), 99 

参见 增 广 律 ( Augmentation ), 自 反 律 ( Reflexivity ), 
(EIB (Transitive rule ) 

Array (4H), 144, 161, 446 

AS, 242, 428 

ASC, 251 

Asilomar report ( Asilomar #244 ), 21 

Assertion (WẸ ), 315, 336 ~ 340 

Assignment statement ( 赋值 语句 ), 206, 444 

Association rule (关联 规则 ), 1094 

Associative law (8442), 220, 555, 795~796, 
819 ~ 820 

Astrahan, M. M., 21, 314, 874 

Atom (MF ), 463 ~ 464, 788 

Atomic type ( 原子 类 型 )，132，144 

Atomicity ( 原子 性 )，2，397，399 ~ 401，880， 
1024 

Attribute (属性 )，25，31 ~ 32，62，136 ~ 138， 


702 


156 ~ 162, 166~167, 183 ~185, 255 ~ 256, 
304, 456~458, 567, 575, 791, 794 

参见 依赖 属性 (Dependent attribute), ERE 
( Dimension attribute), ff AJA YE ( Input 
attribute )， 输 出 属性 (Output attribute ) 

Attribute-based check ( 基于 属性 检查 )，327 ~ 330， 
339 

Augmentation〈 增 广 律 )，99，101 

Authorization (授权 )，383，410 ~ 422 

Authorization ID ( 授权 ID )，410 

Automatic swizzling ( 自动 混 写 )，584 ~ 585 

Average ( 求 平 均 )，223，279 ~ 280，437，727 


B 


Baeza-Yates, R. , 663 

Bag ( 包 ), 144~145, 160 ~ 161, 166 ~ 167, 189, 
192, 214~221, 446, 469~471, 728, 730, 
796 ~ 798, 803 

Bancilhon, F. , 188, 502 

Barghouti, N.S. , 1044 

Batini, Carlo, 60 

Batini, Carol, 60 

Bayer, R. , 663 

BCNF, 102, 105~112, 124~ 125 

参见 Boyce-Codd 范式 ( Boyce-Codd normal form ) 

Beekmann, N., 711 

Beeri, C., 129 

BEFORE, 342 

BEGIN, 368 

Bentley, J.L., 711~712 

Berenson, H., 424 

Bernstein, P. A., 21, 129, 424, 916, 987 

Binary large object ( 二进制 大 对 象 )，595 ~ 596 

Binary relationship ( 二 元 联系 )，25,27 ~ 28, 32 
~33，56 

Binding columns ( 绑 定 列 )，390 ~ 392 

Binding parameters ( 绑 定 参 数 )，392 ~ 393 

Bit ( 二进制 位 )，572 

Bit string (fZ ), 246, 292 

Bitmap index ( 位 图 索引 ), 666, 702 ~ 710 

Blair, R. H., 502 


kil 


Blasgen, M. W., 785, 916 

BLOB 

参见 二 进 制 大 对 象 (Binary large-object ) 

Block (3 ) 509 

参见 磁盘 块 Disk block ) 

Block address， 块 地 址 

参见 数据 库 地 址 ( Database address ) 

Block header ( 块 首部 )，576 ~ 577 

Body ( {£ ) 465 

Boolean ( 布尔 量 )，292 

Bosworth, A., 1099 

Bottom-up plan selection ( 自 底 向 上 的 计划 选择 )， 
843 

Bound adornment, 273822 if 

参见 装饰 ( Adornment ) 

Branch and bound ( 分 支 界定 )，844 

B-tree (B- 树 )，16,609, 611, 632~648, 652, 
665, 670~671, 674, 762, 963 ~ 964, 999 ~ 
1000 

Bucket (ffi), 649, 652~653, 656, 676, 679, 
685 

参见 间接 桶 (Indirect bucket ) 

Buffer (缓冲 区 )，12 ~ 13，506，511，725，880， 
882, 990 

Buffer manager ( 缓冲 区 管理 器 )，765~771，850， 
878 ~ 879 

Buffer pool ( 缓冲 池 )，766 

Build relation ( 构建 关系 )，847，850 

Buneman, P., 187 

Burkhard, W. A., 712 

Bushy tree ( 紧密 树 )，848 
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Cache ( 高 速 缓存 )，507 ~ 508, 513 

CALL (调用 )，366 ~ 367 

Call-level interface， 调 用 层 界面 

参见 CLI 

Candidate item ( 候选 项 )，1094 

Capabilities specification ( 能 力 规格 说 明 )，1066 

Capability-based plan selection ( 基于 能 力 的 计划 选 
择 )，1064 ~ 1070 
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Cartesian product, H-EJLAR 

参见 积 ( Product ) 

Cascade policy〈( 连锁 原则 ), 321 ~ 322 

Csacading rollback ( KEA ), 992 ~ 994 

Case insensitivity ( 大 小 写 不 敏感 性 )，181，244 

Catalog ( 目录 )，379 ~ 381 

Cattell, R.G., 188, 424, 462, 604 

C/C++, 133, 350, 385~ 386, 443, 570 

CD-ROM 

参见 光盘 ( Optical disk ) 

Celko, J., 314 

Centralized locking (集中 封锁 ), 1030 

Ceri, S., 60, 348, 712, 1044 

Chamberlin, D. D., 314, 874 

Chandra, A. K., 502 

Chang, P. Y., 874 

Character set (字符 集 )，382 

Character string ( 字符 串 )，$69 ~571, 650 

参见 串 (String ) 

Chaudhuri, S., 785, 1099 

CHECK 

参见 断言 (Assertion), EF A HRE 
( Attribute-based check )， 基 于 元 组 的 检查 
( Tuple-based check ) 

Check-out-check-in ( 检 出 检 入 ), 1036 

Checkpoint ( 检查 点 )，875，890 ~ 895，912 

Checksum ( 校 验 和 ), 547 ~ 548 

Chen, P. M., 566 

Chen, P.P., 60 

Chou, H. -T., 785 

Class (2), 132~ 133, 135 ~ 136 

CLI, 349, 385 ~ 393 

Client (AF), 7, 382 

Client-server system ( 客户 -服务 器 系统 )，96 ~97, 
582 

Clock algorithm ( 时 钟 算 法 )，767 ~ 768 

Close (关闭 )，720 

Closure, of attributes ( 属性 闭 包 )，92 ~ 97，101 

Closure, of sets of FD’s ( B¥UKBICFD) #4 ), 
98 

Cluster ($), 379 ~ 380 
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Clustered file (RBM ), 624, 759 

Clustered relation ( RAXA ), 717, 728, 759 

Clustering ( REK ), 1091 ~ 1092 

Clustering index ( 聚 艇 索引 ), 757~ 759, 861 ~ 
862 

Cobol ( Cobol 语 言 )，350 

Cochrane, R.J., 348 

CODASYL, 4 

Codd, E. F., 4, 129 ~ 130, 237, 502, 785 

Code， 编 码 

参见 错误 校正 码 ( Error-correcting code ) 

Collation (核对 ), 382 

Collection (#4 ), 570 

Collection type ( RAW ), 133, 145, 444 

参见 数组 (Array), 包 (Bag), 字典 (Dictionary ), 
列表 (List )， 集 合 ( Set ) 

Combiner (合成 器 )，1052 ~ 1053 

Combining rule ( 组合 规 则 )，90 ~ 91 

Comer, D., 663 

Commit ( 提交 ), 402, 885~886, 905, 996, 
1023 ~ 1029 

参见 分 组 提交 (Group commit )， 两 阶段 提交 
(Two-phase commit ) 

Commit bit ( 提交 位 ), 970 

Communication cost〈 通信 开销 )，1020 

Commutative law ( 交换 律 )，218，221，555，795 
~ 796, 819 ~ 820 

Compatibility matrix (HATES ), 943, 946, 
948, 959 

Compensating transaction ( #24 ), 1038 ~ 
1041 

Complementation rule ( 完备 性 规则 )，122 

Complete name ( 完全 名 )，383 

Compressed bitmap ( 压缩 位 图 )，704 ~ 707 

Concurrency (并 发 )，880，888，917 

人 参见 锁 机 制 (Locking )， 调 度 ( Scheduler )， 可 串 
行 性 ( Serializability )， 时 间 戳 (Timestamp ), 
验证 ( Validation ) 

Concurrency control (并 发 控制 )，12 ~ 14, 507 

Condition ( 条件)，340，371，374 ~ 376，790 ~ 
791 
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参见 选择 (Selection), 0-3 # ( Theta-join), 
WHERE f 

Confidence ( 可 信和 度 ), 1094 

Conflict (冲突 )，925 ~ 926 

Conflict-serializability ( 冲突 可 串 行 性 )，918，926 
~ 930 

Conjunct ( 合 取 ), 474 

Connection (连接 )，382 ~ 383, 393~394, 412 

Connection record ( 连接 纪录 ), 386 ~ 388 

Consistency ( — 4HE ), 879, 933, 941, 947 

Constraint ( 约束 ), 47~ 54, 231 ~ 236, 315 ~ 340, 
576, 876, 879 ~ 880 

参见 依赖 (Dependency ) 

Constructor function ( 构造 函数 )，447 

Containment of value sets ( 值 集 的 包含 )，827 

CONTINUE，375 

Coordinator ( 协调 器 ), 1024, 1031 

Correctness principle ( 正确 性 原则 ), 879 ~ 880, 
918 

Correlated subquery ( 相关 子 查询 )，268 ~ 270, 
814 ~ 817 

Cost-based enumeration ( 基于 代价 的 枚 举 ), 821 

参见 连接 排序 (Join ordering ) 

Cost-based plan selection ( 基于 代价 的 计划 选择 ), 
835 ~ 837, 1069 

Count ( 173%), 223, 279 ~ 280, 437 

Crash, fait 

参见 介质 故障 (Media failure ) 

CREATE ASSERTION, 337 

CREATE INDEX, 296 ~ 297, 318 ~ 319 

CREATE METHOD, 451 

CREATE ORDRERING, 459 

CREATE SCHEMA, 380 ~ 381 

CREATE TABLE, 293 ~ 294, 316 

CREATE TRIGGER, 341 

CREATE TYPE, 450 

CREATE VIEW, 302 

Creating statement ( 创建 语句 )，394 

CROSS JOIN (交叉 连接 )，271 

Cross product, X 

S WAR ( Product ) 
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Cube operator ( 立方 体操 作 符 ), 1079 ~ 1082 

CURRENT OF, 358 

Cursor ( 游标 )，355 ~ 361, 370, 396 

Cycle 《循环 )，928 

Cylinder ( 同位 磁道 组 )，516，534 ~ 536，542 ~ 
543, 579 


D 


Dangling tuple ( 悬浮 元 组 )，228，323 

Darwen, H., 314 

Data cube ( 数据 立方 体 )，667，673，1047，1072 
~ 1073, 1079 ~ 1089 

Data disk ( 数据 磁盘 )，552 

Data file ( 数据 文件 )，606 

Data mining ( WEIS), 9, 1047, 1089 ~ 1097 

Data source, BEYER 

参见 源 (Source ) 

Data structure ( 数据 结构 )，503 

Data type ( 数据 类 型 )，292 

参见 UDT 

Data warehouse ( 数据 仓库 )，9 

参见 仓库 ( Warehouse ) 

Database ( 数据 库 )，2 

Database address ( 数据 库 地 址 )，579 ~ 580，582 

Database administrator ( 数据 库 管理 员 )，10 

Database element ( 数据 库 元 素 )，879，957 

Database management system ( 数据 库 管 理 系统 )， 
1, 9~10 

Database programming (数据库 程序 设计 )，1，15， 
17 

Database schema ， 数 据 库 模式 

参见 关系 数据 库 模式 (Relational database schema ) 

Database state， 数 据 库 状态 

参见 数据 库 的 状态 ( State, of a database ) 

Data-definition language (数据 定义 语言 )，10， 
292 

参见 ODL， 模 式 (Schema) 

Datalog, 463 ~ 502 

Data-manipulation language ， 数 据 操纵 语言 

参见 查询 语言 ( Query language ) 

DATA (数据 )，247,，293，571 ~ 572 
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Date, C.J., 314 

Dayal, U., 348, 1099 

DB2, 492 

DBMS 

参见 数据 库 管 理 系统 (Database management 
system ) 

DDL 

参见 数据 定义 语言 (Data-definition language ) 

Deadiock( 死 锁 ),，14,，885，939，1009 ~ 1018, 
1033 

Decision tree ( 决策 树 )，1090 ~ 1091 

Decision -support query ( 决策 支持 查询 )，1070， 
1089 ~ 1090 

参见 OLAP 

DECLARE, 352 ~ 353, 356, 367 

Decomposition (分解)，102 ~ 105，107 ~ 114, 
123 ~ 124 

Default value (默认 值 )，295 

Deferred constraint checking ( 延缓 的 约束 检查 ), 
323 ~ 325 

Deletion (HBR), 288 ~ 289, 410, 599 ~ 600, 
615~619, 630, 642 ~ 646, 651 ~ 652, 708 

参见 修改 (Modification ) 

Deletion anomaly ， 删 除 异常 

Delobel, C., 130, 188 

DeMorgan’s laws (摩根 定律 )，331 

Dense index ( 稠密 索引 )，607 ~ 609，611 ~ 612, 
622，636 

Dependency, {fii 

BWA (constraint), BARB (Functional 
dependency )， 多 值 依 赖 ( Multivalued 
dependency ) 

Dependency graph ( 依赖 图 )，494 

Dependent attribute ( 依赖 属性 )，1073 

Dereferencing (参照 )，455 ~ 456 

DESC, 251 

Description record ( 描述 纪录 ), 386 

Design (Wit), 15~16, 39~47, 70~71, 135 

参见 规范 化 ( Normalization ) 

DeWitt, D.J. , 785 

Diaz, O., 348 
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Dicing (KR), 1076 ~ 1078 

Dictionary (#8), 144, 161 

Difference (# ), 192~194, 205, 215 ~ 216, 
260 ~ 261, 278 ~ 279, 442, 472, 729~730, 
737, 742~743, 747, 751~752, 755, 779, 
798, 803, 833 

参见 EXCEPT 

Difference rule ( 差 规则 )，127 

Digital versatile disk ( 数字 易 失 磁盘 )，0 

参见 光盘 (Optical disk ) 

Dimension attribute ( 维 属性 )，1074 

Dimension table ( 维 表 ), 1073 ~ 1075 

Dirty buffer ( 腻 缓 冲 区 ), 900 

Dirty data ( 脏 数 据 )，405 ~ 407, 970~973, 990 
~ 992 

DISCONNECT, 383 

Disk ( 磁盘 )，515 ~ 525 

参见 软盘 (Floppy disk ) 

Disk access ( 磁盘 存 取 )，297 ~ 330 

Disk assembly ( 磁盘 配件 )，515 ~ 516 

Disk block ( 磁盘 块 )，12，516，531 ，575 ~ 577， 
579, 633, 694, 717, 733, 735 ~ 736, 765, 
822, 879, 888 

参见 数据 库 地 址 ( Database address ) 

Disk controller ( 磁盘 控制 器 )，517，522 

Disk Crash, RA ART 

参见 介质 故障 ( Media failure ) 

Disk failure ( 磁盘 故障 )，546 ~ 563 

参见 磁盘 崩 汝 (Disk crash ) 

Disk head (磁头 )，516 

参见 头 配 件 ( Head assembly ) 

Disk VO ( 磁盘 1/O ), 511, 519 ~ 523，525 ~ 526， 
717, 840, 852, 856 

Disk scheduling ( 磁盘 调度 ), 538 

Disk striping ， 磁 盘 分 割 

参见 RAID, 4#] (RAID, Striping ) 

Diskette ( 软磁盘 )，519 

参见 软盘 (Floppy disk ) 

DISTINCT, 277, 279, 429 ~ 430 

Distributed database ( 分 布 式 数据 库 )，1018 ~ 1035 

Distributive law ( 分 配 律 )，218，221，797 
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DML 

参见 数据 操纵 语言 (Data-manipulation language ) 

Document retrieval ( 文档 检索 )，626 ~ 630 

Document type definition ， 文 本 类 型 定义 

参见 DTD 

Domain (4%), 63, 382 

Domain constraint (R273 ), 47, 234 

Double-buffering (IR ), 541 ~ 544 

DRAM 

参见 动态 随机 存 取 存 储 器 (Dynamic random- 
access memory ) 

Drill-down (Fi), 1079 

Driver ( 驱动 器 ), 393 

DROP, 294, 297, 307 ~ 308 

DTD, 178, 180~ 185 

Dump ( 转 储 )，910 

Duplicate elimination ( 消 重复 )，221 ~ 222，225， 
278, 725 ~ 727，737 ~ 740，747，750 ~ 751 ， 
755, 771, 773, 779, 805~ 806, 818, 833~ 
834 

参见 DISTINCT 

Duplicate-impervious grouping (不 受 重复 影响 的 分 
组 )，807 

Durability 《 持久 性 )，2 

DVD 

参见 数字 易 失 磁盘 (Digital versatile disk ) 

Dynamic hashing ( 动态 散 列 )，652 

参见 可 扩展 散 列 ， 线 性 散 列 (Extensible hashing, 
Linear hashing ) 

Dynamic programming ( 动态 规划 )，845，852 ~ 
857 

Dynamic random-access memory ( 动态 随机 存 取 存 
储 器 )，514 

Dynamic SQL (动态 SQL )，361- 363 


E 


ELEMENT, 444 

Elevator algorithm ( 电梯 算法 )，538 ~ 541, 544 
ELSE，368 

ELSIF, 368 

Embedded SQL (4ESQL ), 349~ 365, 384 


END, 368 

End-checkpoint action ( 检查 点 结束 操作 )，893 

End-dump action ( 转 储 结束 操作 )，912 

Enity set ( 实体 集 ), 24 ~25, 40 ~ 44，66 ~ 67， 
155 

参见 弱 实 体 集 (Weak entity set ) 

Entity/relationship model ， 实 体 / 联 系 模型 

参见 E/R 模型 (E/R model ) 

Enumeration ( 枚 举 ), 137 ~ 138, 572 

Environment ( 环境 )，379 ~ 380 

Environment record ( 环境 纪录 )，386 ~ 388 

Equal-height histogram ( 等 高 直方 图 )，837 

Equal-width histogram ( 等 宽 直 方 图 )，836 

Equijoin ( 等 值 连接 )，731，819，826 

Equivalent sets of functional dependencies ( tA 
数 依赖 集 )，90 

E/R diagram ( E/R 图 ), 25~26, 50, 53, 57~58 

E/R model ( E/R ## ), 16, 23~60, 65 ~ 82, 
173, 189 

Error-correcting code (错误 校正 码 )，557，562 

Escape character ( 换 码 字符 )，248 

Eswaran, K. P., 785, 987 

Event ( 事件 )，340 

Event-condition-action rule， 事 件 -条 件 -动作 规则 

参见 触发 ( Trigger ) 

EXCEPT，260，442 

Exception ( 例外 处 理 )，142，374 ~ 376 

Exclusive lock ( 排他 锁 )，940 ~ 942 

EXEC SQL, 352 

EXECUTE, 362, 392, 410~411 

Executing queries/updates, in JDBC ( 在 JDBC 中 执 
行 查询 /更 新 ) 394 ~ 395 

Execution engine ( 执行 引擎 )，10，15 

EXISTS, 266, 437 

EXIT, 375 

Expression tree ( 表达 式 树 )，202，308 

Extended projection (外 投影 )，222，226 ~ 227 

Extensible hashing ( 可 扩展 散 列 )，652 ~ 656 

Extensible markup language， 可 扩展 的 标记 语言 

参见 XML 

Extensional predicate (扩展 谓词 )，469 


x 4l 


Extent (范围 )，151 ~ 152, 170 
Extractor, fH #35 
参见 包装 器 (Wrapper ) 


F 


Fact table ( 事实 表 ), 670, 1072~ 1075, 1079 

Fagin, R., 129~130, 424, 663 

Faithfulness ( 忠实 性 )，39 

Faloutsos, C., 663, 712 

Faulstich, L.C., 188 

Fayyad, U., 1099 

FD 

参见 函数 依赖 (Functional dependency ) 

Federated databases ( 联邦 数据 库 ), 1047, 1049 ~ 
1051 

> FETCH, 356, 361, 389 ~ 390 

Field (FE ), 132, 567, 570, 573 

FIFO 

参见 先进 先 出 〈 First-in-first-out ) 

File (文件 )，504，506，567 

参见 顺序 文件 ( Sequential file ) 

File system (文件 系统 )，2 

Filter ( 过 滤器 )，844，860 ~ 862, 868 

Filter, for a wrapper (包装 器 过 滤 )，1060 ~ 1061 

Finkel, R. A., 712 

Finkelstein, S.J., 502 

First normal form ( 第 一 范式 )，116 

First-come-first-served ( 先 来 先 服务 )，956 

First-in-first-out ( 先进 先 出 )，767 ~ 768 

Fisher, M., 424 

Flash memory ( 快 闪存 储 器 )，514 

Floating-point number ， 浮 点 数 

参见 实数 (Real number ) 

Floppy disk ( 软盘 )，513 

参见 软磁盘 (Diskette ) 

Flush log ( 刷新 日 志 )，886 

FOR, 372 ~ 375 

For EACH ROW, 341 

Forign key ( M# ), 319 ~ 322 

Formal data cube ( 正式 数据 立方 体 )，1072 

参见 数据 立方 体 (Data cube ) 
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Fortran, 350 

Forwarding address( 转发 地 址 ), 581, 599 

4NF，122 ~ 125 

Fragment, ofa relation (关系 的 片段 )，1020 

Free adornment， 自 由 装饰 

参见 装饰 (Adomment ) 

Frequent itemset ( 频繁 项 目 集 )，1092 ~ 1096 

Friedman, J. H., 712 

FROM, 240, 264, 270, 284, 288, 428, 430, 
789 ~ 790 

Full outerjoin， 完 全 外 连接 

参见 外 连接 ( Outerjoin ) 

Function ( 函数 )，365 ~ 366, 376 ~ 377 

参见 构造 函数 ( Constructor function ) 

Functional dependency ( pak fi), 82 ~ 117, 
125, 231, 233 


G 


Gaede, V., 712 

Galliare, H. , 502 

Gap (间隙 )，516 

Garcia-Molina, H. , 188, 566, 1044, 1099 ~ 
1100 

Generalized projection, J” XBRE 

参见 分 组 ( Grouping ) 

Generator method ( 产生 器 方法 )，457 ~ 458 

Generic SQL interface ( 类 SQL 界面 )，349 ~ 350, 
384 

Geographic information system ( 地 理 信 息 系 统 )， 
666 ~ 667 

GetNext ，720 

Gibson, G. A. 566 

Global lock ( 全 局 锁 )，1033 

Global schema ( 全 局 模式 )，1051 

Goodman, N. , 916, 987 

Gotlieb, L. R. , 785 

Graefe, G. , 785, 874 

Grammer (语法 )，789 ~ 791 


` Grant diagram ( 授权 图 )，416 ~ 417 


Grant option ( 授权 选项 )，415 ~ 416 
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Granting privileges ( 授权 优先 权 ), 414 ~ 416 

Granularity, of locks ( 锁 的 粒度 ), 957, 958 

Graph 图 

SAAR, SRR, SRA (Polygraph, Prece- 
dence graph, Waits-for graph ) 

Gray, J. N. , 424, 566, 916, 987~988, 1044, 
1099 

Greedy algorithm ( 贪 焚 算法 )，857 ~ 858 

Grid file ( 网 格 文件 )，666，676 ~ 681, 683 ~ 684 

Griffths, P. P. , 424 

GROUP BY, 277, 280 ~ 284, 438 ~ 441 

Group commit ( 成 组 提交 ), 996 ~ 997 

Group mode ( 4A), 954~955, 961 

Grouping (4341), 221 ~ 226, 279, 727~728, 
737, 740~741, 747, 751, 755, 771, 773, 
780, 806~ 808, 834 

参见 GROUP BY 

Gulutzan, P. ，314 

Gunther, O., 712 

Gupta, A. , 237, 785, 1099 

Guttman, A. , 712 


H 


Haderle, D.J., 916, 1044 

Hadzilacos, V., 916, 987 

Haerder, T., 916 

Hall, P. A. V. , 874 

Hamilton, G. , 424 

Hamming code ( #8993), 557, 562 

Hamming distance ( 海 明 距 离 )，562 

Handle 《处理 )，386 

Hapner, M. , 424 

Harel, D. , 502 

Harinarayan, V. , 237, 785, 1099 

Hash function ( 散 列 函数 ), 649 ~ 650, 652 ~ 653, 
656 ~ 657 

人 参见 分 拆 的 散 列 函数 (Partitioned hash function ) 

Hash join ( 散 列 连接 )，752 ~ 753, 844, 863 

参见 混合 散 列 连接 (Hybrid hash join ) 

Hash key ( 散 列 键 )，649 


Hash table ( 散 列表 )，649 ~ 661，665，749 ~ 757, 
770, 773 ~ 774，779 

参见 动态 散 列 法 (Dynamic hashing ) 

HAVING, 277, 282~284, 441 

Head ( 磁头 )，465 

Head assembly ( 磁头 组 合 )，515 ~ 516 

Head crash ， 磁 头 损坏 

参见 介质 故障 (Media failure ) 

Header， 首 部 

参见 块 首部 ， 纪 录 首 部 (Block header, Record 
header ) 

Heap structure ( 堆 结构 )，624 

Held, G., 21 

Hellerstein, J. M. , 21 

Heterogeneous sources ( 异 构 数据 源 )，1048 

Heuristic plan seletion (启发 式 计 划 选 择 )，843 ~ 
844 

AAEH (Greedy algorithm ) 

Hill climbing ( fi ), 844 

Hinterberger, H. , 712 

Histogram ( 直方 图 ), 836 ~ 839 

Holt, R.C. , 1044 

Hopcroft, H. E. , 726, 852 

Horizontal. decomposition ( 水 平分 解 )，1020 

Host language ( 宿主 语言 )，350 ~ 352 

Howard, J.H. , 129 

Hsu, M. , 916 

HTML, 629 

Hull, R., 21 

Hybrid hash join ( 混合 散 列 连接 )，753 ~ 755 


I 


ID, 183 

Idempotence ( SHE ), 230, 891, 998 

Identity (标识)，555 

IDREF，183 

IF, 368 

Imielinski, T. , 1099 

Immediate constraint checking ( 立即 约束 检查 )， 
323 ~ 325 

Immutable object ( 不 变 对 象 )，133 
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Impedence mismatch ( 阻抗 不 匹配 )，350 ~ 351 

IN, 266 ~ 267, 430 

Inapplicable value (不 可 使 用 值 )，248 

Incomplete transaction (未 完成 的 事务 )，889，898 

Increment lock ( 增 量 锁 )，946 ~ 949 

Incremental dump〈 增 量 转 储 )，910 

Incremental update ( 增 量 更 新 )，1052 

Index ( #45] ), 12~13, 16, 295~300, 318 ~ 
319, 605 ~ 606, 757 ~ 764, 1065 

BAMA RS|, B-, RRS), WERI, BH 
Rol, SERS, “RR, MARSI 
(Bitmap index, B-tree, Clustering index, 
Dense index, Inverted index, Multidimension- 
anl index, Sencondary index, Sparse index ) 

Index file ( 索引 文件 )，606 

Index join (索引 连接 )，760 ~ 763, 844, 847, 
863 

Index-scan ( R314 ), 716, 719~ 720, 725, 
758 ~ 760, 862, 868 

Indirect bucket ( 间接 桶 )，625 ~ 630 

Information integration ( 信息 集成 )，8 ~ 9，19， 
173，175 ~ 177，1047 ~ 1049 

参见 联邦 数据 库 ， 协 调 器 ， 数 据 仓 库 (Federated 
databases，Mediator，Warehouse ) 

Information retieval， 信 息 检索 

参见 文件 检索 (Document retrieval ) 

Information schema ( 信息 模式 )，379 

Information source， 信 息 源 

参见 源 (Source ) 

INGRESS, 21 

Inheritance ( 继承 性 )，132，134 ~ 135 

参见 Isa 联系 ， 多 重 继承 性 ， 子 类 (Isa relation- 
ship, Multiple inheritance, Subclass ) 

Input action ( 输入 动作 ), 881, 918 

Input attribute (输入 属性 ), 802 

Insensitive cursor ( 不 敏感 游标 )，360 

Insertion (插入 )，286 ~288, 410, 598 ~ 599, 
615 ~ 620, 630, 639 ~ 642, 650 ~ 651, 653 ~ 
660, 677 ~ 679, 691, 697 ~ 698, 708 

参见 更 新 (Modification ) 

Instance, of a relation ( 关系 实例 )，64，66 
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Instance, of an entity set ( 实体 集 实例 )，27 

Instance variable (实例 变量 )，132 

INSTEAD OF, 344 ~ 345 

Integer ( 整 型 )，292 ~293, 569, 650 

Intensional predicate ( Ais] ), 469 

Intention lock ( 意向 锁 )，959 

Interest ( HEHE), 1094 

Interesting order ( 有 趣 的 排序 )，845 

Interface ( 界面 )，152 

Interior node ( 内 部 节点 )，174，633 ~ 635 

Interleaving (384%), 924 

Intermediate collection (中间 集 )，439 

Intermittent failure ( 中 间 故 障 )，546 ~ 547 

Intersection ( XZA ), 193 ~ 194, 205, 215 ~ 
216, 260 ~ 261, 278~279, 442, 471~472, 
626, 729 ~ 730, 737, 742 ~ 743, 747, 751 ~ 
752, 755, 779, 796~799, 803, 833 

Intersection rule ( 交 运 算 规 则 )，127 

INTO, 355 ~ 356 

Inverse (7), 555 

Inverse relationship (24K ), 139 ~ 140 

Inverted index ( 倒 排 索引 ), 626 ~ 630 

Isa relationship (Isa KA), 34, 54, 77 

Isolation ( 孤立 性 )，2 

Isolation level ( 抓 立 层 次 )，407 ~ 408 

ISOWG3，313 

Iterator (迭代 符 )，720 ~ 723，728，733 ~ 734, 
871 

参见 流水 线 (Pipelining ) 


J 


Java, 393 . 

Java database connectivity，Java 数 据 库 连 接 性 

参见 JDBC 

JDBC，349，393 ~ 397 

Join《〈 连 接 )，112 ~ 113，192 ~ 193，254，255， 
270 ~272, 505 ~ 506 

ALFER, LER, HFR, SAER, 
REMEH, SER, ERAH, FE, 
0- 连接 ，zig-zag 连接 ( Antisemijoin, CROSS 
JOIN, Equijoin, Natural join, Nestedloop join, 
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Outerjoin, Selectivity, of a join, Semijoin, 
Theta-join, Zig-zag join ) 
Join, Ordering ( 连接 顺序 )，818，847 ~ 859 
Join tree (连接 树 )，848 
Joined tuple ( 连接 的 元 组 )，198 
Juke box (Juke 盒 )，512 


K 


Kaiser, G.E. , 1044 

Kanellakis, P. , 188 

Kanellakis, P. C. , 988 

Katz, R.H. , 566, 785 

kd-tree ( Kd- 树 ), 666, 690 ~ 694 

Kedem, Z., 988 

Key ($), 47~51, 70, 84~88, 97, 152~ 154, 
164, 316, 

参见 外 键 ， 散 列 键 ， ER, AMR, HS 
( Foreign key, Hash key, primary key, Search key, 
Sort key ) 

Kim, W., 188 

Kitsuregawa, M. , 785 

Knowledge discovery in databases, #GEFE AHR 
发 现 

参见 数据 挖掘 (Data mining ) 

Knuth, D.E. , 604, 663 

Ko, H.-P., 988 

Korth, H.F. , 988 

Kossman, D. , 785 

Kreps, P., 21 

Kriegel, H.-P. , 711 

Kumar, V., 916 

Kung, H. -T. , 988 


L 


Lampson, B., 566, 1044 

Larson, J. A., 1099 

Latency ( 3ER} ), 519, 535 

参见 转动 延 时 (Rotational latency ) 

Lattice, of views ( 视图 的 格 )，1085，1087 
Layman, A. , 1099 

Leader election ( 领导 选举 ), 1027 


Leaf ( 叶 节 点 )，174，633 ~ 634 | 

Least fixedpoint ( 最 小 不 动 点 )，481 ~ 486，488， 
499 

Least-recently used( 最 近 最 少 使 用 )，767 ~ 768 

LEAVE, 371 

Left outerjoin ( 左 外 连接 ), 228, 273 

Left-deep join tree ( 左 深度 连接 树 )，848 ~ 849, 
853 

Left-recursion ( 左 递归 ), 484 

Legacy database ( i MAGE), 9, 175, 1065 

Legality, of schedules ( 调度 的 合法 性 )，933 ~ 
934, 941~942, 947 

Lewis, P.M. II , 1045 

Ley, M., 21 

Li, C., 1100 

LIKE , 246 ~ 248 

Lindsay, B.G. , 916, 1044 

Linear hashing ( 线性 散 列 法 )，656 ~ 660 

Linear recursion， 线 性 递归 

参见 非 线性 递归 (Nonlinear recursion ) 

Lisy (列表 )，144 ~ 145，161，445 ~ 446 

Literal (文字 )，474 

Litwin, W., 663 

Liu, M. , 502 

Lock ( #4), 400 

参见 全 局 锁 ( Global lock ) 

Lock site ( 封锁 节点 )，1030 

Lock table《〈 锁 表 )，951，954 ~ 957 

Locking (封锁 )，932 ~ 969，978 ，983 ~ 984, 
1029 ~ 1035 - 

参见 排他 锁 ， 渐 增 锁 ， 意 向 锁 ， 共 享 锁 ， 严 格 锁 
AR, BBB (Exclusive lock, Increment lock, 
Intention lock, Shared lock, Strict locking, 
Update lock ) | 

Log manager ( 日 志 管 理 器 )，878，884 

Log record ( 日志 记录 )，884 ~ 885, 893 

Logging ( 日 志 技 术 )，12 ~ 13，875，910，913， 
993，996 

参见 逻辑 日 志 技 术 ，redo 日 志 ，undo 日 志 ，undo/ 
redo 日 志 (Logical logging, Redo logging, 


党 4l 
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Undo logging, Undo/redo logging ) 

Logic, 48 

参见 Datalog， 三 值 逻 辑 (Datalog, Three-valued 
logic ) 

Logcial address ( 逻辑 地 址 ), 579 ~ 582 

Logical logging (逻辑 日 志 )，997 ~ 1001 

Logical query plan ( 逻辑 查询 计划 ), 714~715, 
787 ~ 788, 817 ~ 820, 840 ~ 842 

参见 计划 选择 (Plan selection ) 

Lomet, D. , 604, 1099 

Long-duration transaction ( 长 事务 )，1035 ~ 1041, 
1071 

Lookup (Æ$R ), 609, 613~614, 638 ~ 639, 659 
~660, 676~677, 680, 691, 707 ~ 708 

Loop (循环 )，370 ~ 371 

Lorie, R. A. , 874, 987 

Lotus notes, 175 

Lozano, T., 712 


LRU 
参见 最 少 最 新 使 用 的 ( Least-recently used ) 


M 


Main memory ( 主 存 )，508 ~ 509，513 ，525 

Main-memory database system ( 主 存 数据 库 系 统 )， 
510, 765 

Majority locking (KS RE ), 1034 

Many-many relationship ( 多 对 多 联系 )，28 ~29, 
140 ~ 141 

Many-one relationship ( 多 对 一 联系 ), 27, 29,56， 
140~141, 154 

Map table (映射 表 )，379 ~ 580 

Market-basket data ( 商场 - WHER ), 1092 

参见 关联 规则 (Association rule ) 

Materialization ( 实体 化 )，859，863 ~ 867 

Materialized view (物化 视图 )，1083，1085 ~ 
1087 

Mattos, N. , 348, 502 

Maximum ( 最 大 值 )，223，279，437 

McCarthy, D.R. , 348 

McCreight, E. M. , 663 


McHugh, J., 187 

McJones, P.R. , 916 

Mean time to failure (平均 无 故障 时 间 ), 551 

Media decay ( 介质 损坏 )，546 

Media failure ( 介质 故障 ),. 546, 549, 876 ~ 877, 
909 ~ 913 

Mediator (Mediator ), 1048, 1053 ~ 1070 

Megatron 2002 (imaginary DBMS) ( Megatron 2002 
(虚构 DBMS ) )，503 ~ 507 

Megatron 737(imaginary disk) (Megatron 737 ( 虚 
构 磁 盘 )), 536 ~ 537 

Megatron 747(imaginary disk) ( Megatron 747 ( Ke 
构 磁 盘 )), 518~519, 521 ~ 522 

Megatron 777(imaginary disk) (Megatron 777 ( 虚 
构 磁 盘 )), 524 

Melkanoff, M.A. , 130 

Melton, J., 314, 424 

Memory address ( 存储 器 地 址 ), 582 

Memory hierarchy ( 存储 器 层次 )，507 ~ 513 

Memory size ( 内 存 大 小 )，717，728，731 

Merge-sort ( 归并 排序 )，527 ~ 532 

参见 两 阶段 ， 多 路 归并 排序 (Two-phase, mul- 
tiway merge-sort ) 

Merging nodes ( 归并 节点 )，643 ~ 645 

Metadata ( 元 数据 ), 13 

Method (方法 ) 133 ~ 134，141 ~ 143，156，167， 
171, 45~452, 569 

参见 产生 器 方法 ，Mutator 方 法 ( Generator method, 
Mutator method ) 

Minimum ( 最 小 值 )，223，279，437 

Minker, J. , 502 

Mirror disk (镜像 磁盘 )，534，537 ~ 538, 544, 
552 

Mode, of input or output parameters ( 输入 或 输出 
BRU ), 142, 365 ~ 366 

Model, #22 

参见 ER 模型 ， 面 向 对 象 模型 ， 对 象 关 系 模型 ， 关 
系 模型 ， 半 结构 化 数据 ( E/Rmodel， Object- 
oriented model, Object-relational model, 
Relational model, Semistructured data ) 

Modification ( ##f ), 297, 321 ~322, 358 ~ 359 
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参见 删除 ， 插 人 ， 可 修改 视图 ， 修 改 (Deletion, 
Insertion, Updatable view, Update ) 

Module (#38), 38~385, 412 ~ 413 

参见 PSM 

Modulo-2 sum， 模 2 和 

参见 奇偶 校 验 位 〈《Parity bit ) 

Mohan, C., 916, 1044 

MOLAP, 1073 

参见 数据 立方 体 (Data cube ) 

Monotonicity (单调 性 )，497 ~ 499 

Moore’s law (摩尔 定律 )，$10 

Moto-oka, T., 785 

Multidimensional index ( 多 维 索引 ), 665 ~ 666, 
673 ~ 674 

参见 栅 格 文件 ， 多 键 索 引 ， 分 拆散 列 函 数 ， 四 又 
树 ，R- 树 (Grid file, kd-tree, Multiple-key 
index, Partitioned hash function, Quard tree, 
R-tree ) 

Multidimensional OLAP ( 多维 OLAP ) 

参见 MOLAP 

Multilevel index ( 多 层 索引 )，610 ~ 612 

参见 B- 树 (B-tree ) 

Multimedia data ( 多 媒体 数据 )，8 

Multipass algorithm ( 多 趟 算法 ), 771 ~ 774 

Multiple disks ( 多 磁盘 )，536 ~ 537，544 

Multiple inheritance ( 多 重 继承 )，150 ~ 151 

Multiple-key index ( 多 键 索引 ), 666, 687 ~ 690 

Multiset, ZÆ 

参见 Bag 

Multi-tier architecture ( 多 层 体系 结构 )，7 

Multivalued dependency ( 多 值 依赖 )，118 ~ 127 

Multiversion timestamp ( & ARABS IER), 975 ~ 
977 

Multiway merge-sort， 多 路 归并 排序 

参见 两 阶段 ， 多 路 归并 排序 (Two-phase， 
multiway merge-sort ) 

Multiway relationship ( 多 路 联系 )，28 ~ 30，32 ~ 
33, 148 ~ 149 

Mumick, I.S., 502, 1099 

Mumps, 350 


Mutable object ( 易 变 对 象 )，133 
Mutator method ( Mutator 方法 )，457 
Mutual recursion ( 互 斥 递归 ), 494 
MVD 

参见 多 值 依赖 (Multivalued dependency ) 


N 


Naqvi, S. , 502 

Natural join ( RARER), 198~199, 205, 219, 
272, 467~477, 730~731, 737, 743 ~ 747, 
752 ~ 755, 760 ~ 763, 771 ~773, 779 ~ 780, 
796, 798~799, 802, 805, 819, 826 ~ 832, 
862 ~ 867 

Navathe, S.B., 60 . 

Nearest-neighbor query ( 最 邻近 查询 ), 667 ~ 669, 
671 ~ 672, 681, 683, 690, 693 

Negated subgoal (wit HER), 465, 467 

Nested relation ( REHA ), 167 ~ 169 

Nested-loop join ( REGMIEE ), 258, 733 ~ 737, 
744, 769~770, 847, 849 ~ 850 

NEW ROW/TABLE, 341 ~ 344 

NEXT, 361 

Nicolas, J.-M. , 237 

Nievergelt, J. , 663, 712 

Node (节点 )，174 

Nonlinear recursion ( 非 线性 递归 )， 484, 492 

Nonquiescent archieving ( 非 静 止 转 储 )，910 ~ 913 

Nonquiescent checkpoint ( 非 静 止 检 查 点 )，892 ~ 
895, 900 ~ 902，905 ~ 907 

Nontrivial FD， 非 平凡 函数 依赖 

参见 平凡 函数 依赖 (Trivial FD ) 

Nontrivial MVD， 非 平凡 多 值 依赖 

参见 平凡 多 值 依赖 ( Trivial MVD ) 

Nonvolatile storage， 非 易 失 性 存储 器 

参见 易 失 存储 器 (Volatile storage ) 

Normalization (规范 化 )，16 

Null character ( 空 字符 )，571 

Null value ( 空 值 )，70，76， 79 ~ 80，228，248 ~ 
251, 283, 295, 316, 318, 328, 592~594, 
1049 


x 4l 


参见 设置 空 规则 ( Set-null policy ) 
O 


Object ( 对象 )，78 ~ 79，133 ，135$，170，569 

Object broker ( 对 象 代理 )，578 

Object definition language， 对 象 定义 语言 

参见 ODL 

Object identifier ( 对 象 标 识 符 )，569 

Object identify ( 对 象 标识 )，132 ~ 133, 135, 167, 
171 

参见 引用 列 ( Reference column ) 

Object query language， 对 象 查询 语言 

参见 OQL 

Object-oriented database (面向 对 象 数据 库 )，765 

Object-oriented model ( 面向 对 象 模型 ), 132 ~ 135, 
170 ~ 171，173 

参见 对 象 关系 模型 ，ODL ，0QL ( Object- 
relational model, ODL, OQL) 

Object-relational model ( 对 象 关系 模型 )，8，16， 
131，166~173，425，449 ~ 461 

Observer method ( 观察 方法 )，456 ~ 457 

ODBC 


参见 CLI 
ODL, 16, 135~ 166, 172, 569 
ODMG, 187 


Offset ( 偏 移 量 )，572 ~ 573 

Offset table ( 偏 移 量 表 )，580 ~ 581，598 

OID 

参见 对 象 表示 符 (Object identifier ) 

OLAP (联机 分 析 处 理 )，1047，1070 ~ 1089 

参见 MOLAP，ROLAP 

OLD ROW/TABLE, 341 ~ 344 

Olken, F. , 785 

OLTP, 1070 

ON, 271 

On-demand swizzling (立即 混 写 )，585 

O'Neil，E. , 424 

O'Neil, P. , 424, 712 

One-one relationship ( 一 对 一 联系 )，28 ~ 29, 140 
~ 141 

One-pass algorithm 〈 一 趟 算法 )，722 ~ 733, 850, 
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862 

On-line analytic processing ， 联 机 分 析 处 理 

参见 OLAP 

On-line transaction processing ， 联 机 事务 处 理 

参见 OLTP 

Open，720 

Operand〔〈 算 子 )，192 

Operator ( 操作 符 )，192 

Optical disk ( 光盘 )，512 ~ 513 

Optimistic concurrency control， 乐 观 并 发 控制 

AHER, UE (Timestamp, Validation ) 

Optimization， 优 化 

参见 查询 优化 (Query optimization ) 

OQL, 425~449, 570 

ORDER BY, 251 ~ 252, 284 

Ordering relationship, for UDT(UDT 的 有 序 联系 )， 
458 ~ 460 

Outerjoin ( 外 连接 )，222，228 ~ 230, 272 ~ 274 

Output action (输出 动作 )，881，918 

Output attribute (#7 HEHE), 802 

Overflow block ( 溢出 块 )，599，616 ~ 617, 619, 
649, 656 

Overloaded method ( 过 载 方法 )，142 

Ozsu, M.T. , 1045 


P 


Pad character (填充 符号 )，570 

Page, 509 

人 参见 磁盘 块 Disk block) 

Palermo, F. P., 874 

Papadimitrion, C. H. , 987, 1044 

Papakonstantinou, Y., 188, 1099 

Parallel computing ( 并 行 计算 )，6~7，775 ~ 782, 
983 

Parameter ( 参数 ), 392, 396 ~ 397 

Parity bit ( 奇偶 校 验 位 )，548 552 ~ 553 

Parse tree【〔 语法 分 析 树 )，788 ~ 789, 810 

Parser (分 析 器 )，713 ~ 715，788 ~ 795 

Partial-match query ( 部 分 匹配 查询 ), 667, 681, 
684，688 ~ 689, 692 

Partition attribute ( 分 拆 属性 )，438 

Partitioned hash function ( 分 段 散 列 函 数 )，666， 
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682 ~ 684 

Pascal, 350 

Path expression (路 径 表 达 式 ), 426 ~ 428 

Paton, N. W. , 348 

Pattern 〈 模板 )，791 

Patterson, D. A., 566 

PCDATA, 180 

Pelagatti, G. , 1044 

Pelzer, T. , 314 

Percentiles， 百 分 数 

参见 等 高 直方 图 ( Equal-height histogram ) 

Persistence (持久 性 )，1，301 

Persistent stored modules。 永 久 存 储 模块 

参见 PSM 

Peterson, W. W. , 664 

Phantom (幻像 )，961 ~ 962 

Physical address ( 物理 地 址 ), 579, 582 

Physical query plan (物理 查询 计划 )，714 ~ 715， 
787, 821, 842 ~ 845，859 ~ 872 

Piateesky-Shapiro, G. , 1099 

Pinned block (被 固定 的 块 )，586 ~ 587, 768, 
995 

Pipelining (流水线 )，859，863 ~ 867 

参见 迭代 器 (Iterator ) 

Pippenger, N. , 663 

Pirahesh, H. , 348, 502, 916, 1044, 1099 

Plan selection ( 计划 选择 ), 1022 

参见 算法 选择 ， 基 于 能 力 的 计划 选择 ， 基 于 代价 
的 枚 举 ， 基 于 代价 的 计划 选择 ， 启 发 式 计 划 选 
择 ， 物 理 查 询 计 划 ， 自 顶 向 下 计划 选择 
( Algorithm selection, Capability-based plan 
selection, Cost-based enumeration, Cost-based 
plan selection, Heuristic plan selection, 
Physical query plan, Top-down plan selection ) 

Platter ( BEAR), 515, 517 

PL/I, 350 

Pointer swizzling ， 指 针 混 写 

参见 混 写 ( Swizzling ) 

Polygraph (多 图 )，1004 ~ 1008 

Precedence graph (优先 图 )，926 ~ 930 

Precommitted transaction ( 预 提 交 事 务 )，1025 


Predicate ( 谓词 )，463 ~ 464 

Prefetching， 预 提取 

参见 双 缓 冲 技 术 ( Double-buffering ) 

PREPARE, 362, 392 

Prepared statement ( 准备 语句 ), 394 ~ 395 

Preprocessor ( 预 处 理 器 )，793 ~ 794 

Preservation, of FD’s ( 保持 函数 依赖 )，115 ~ 116, 
125 

Preservation of value sets ( 值 集 的 保持 )，827 

Price, T.G. , 874 

Primary index ( 主 索引 ), 622 

SIAE MARKI] (Dense index, Sparse 
index ) 

Primary key (主键 ), 48, 316~317, 319, 576, 
606 

Primary-copy locking ( 主 副本 封锁 )，1032 ~ 1033 

PRIOR, 361 

Privilege ( 优先 权 ), 410 ~ 421 

Probe relation ( 试探 关系 )，847，850 

Procedure (#2), 365, 376 ~ 377 

Product (#2), 192~ 193, 197~198, 218, 254~ 
255, 476, 730, 737, 796, 798~799, 803, 
805, 832 

Projection (投影 )，112 ~ 113，192 ~ 193 195, 
205, 216~217, 242, 245, 473, 724~725, 
737, 802~805, 823, 832, 864 

参见 扩展 投影 ， 下 推 投影 ( Extended projection, 
Pushing projection ) 

Projection, of FD’s ( 函数 依赖 的 投影 )，98 ~ 100 

Prolog, 501 

Pseudotransitivity ( 伪 传 递 性 )，101 

PSM, 349, 365 ~ 378 

PUBLIC, 410 

Pushing projections ( 下 推 投影 )，802 ~ 804, 818 

Pushing selections ( 下 推选 择 )，797，800 ~ 801, 
818 

Putzolo, F. , 566, 988 


Q 


Quad tree (PURPY), 666, 695 ~ 696 
Quantifier, Bia] 


索引 


参见 ALL, ANY, EXISTS 

Quass, D. , 187, 237, 712, 785, 1099 

Query ( ÆH ), 297, 466, 504-505 

参见 决策 支持 查询 ， 查 找 ， 最 邻近 查询 ， 部 分 匹 
配 查询 ， 范 围 查询 ，Where-am-I 查 询 
(Decision-support query, Lookup, Nearest- 
neighbor query, Partial-match query, Range 
query, Where-am-I query ) 

Query complier ( 查询 编译 器 )，10，14 ~ 1$，713 
~715, 787 

参见 查询 优化 (Query optimization ) 

Query execution ( 查询 执行 )，713，870 ~ 871 

Query language ( 查询 语言 )，2，10 

参见 Datalog，OQL， 关 系 代数 ，SQL ( Datalog, 
OQL, Relational algebra, SQL ) 

Query optimization (查询 优化 )，15，714 ~ 715 

参见 计划 选择 (Plan selection ) 

Query plan ( 查询 计划 ), 10, 14 

参见 逮 辑 查询 计划 ， 物 理 查询 计划 ， 计 划 选 择 
(Logical query plan, Physical query plan, Plan 
selection ) 

Query processing ( 查询 处 理 )，17 ~ 18，506 

参见 执行 引擎 ， 查询 编译 器 (Execution engine, 
Query compiler ) 

Query processof ， 查 询 处 理 器 

参见 查询 编译 器 ， 查 询 执行 (Query compiler, 
Query execution ) 

Query rewriting ( 查询 重 写 ), 714~715, 788, 
810 ~ 821 

参见 代数 定律 ( Algebraic law ) 

Quicksort ( 快速 排序 )，527 

Quotient ( 商 )，213 


R 


RAID, 551 ~ 563, 876 ~ 877 

Rajaraman, A., 1099 

RAM disk (RAM 磁盘 )，514 

Ramakrishnan, R. , 502 

Random-access memory ( 随机 访问 存储 器 ), 508 

Range query ( 范围 查询 )，638 ~ 639, 652, 667, 
673, 681, 689, 692 ~ 693 
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Raw-data cube ( 原始 数据 立方 体 )，1072 

参见 数据 立方 体 ， 事 实 表 (Data cube, Fact table ) 

Read action ( 读 动作 ), 881, 918 

READ COMMITTED, 407 ~ 408 

Read lock, Rg 

参见 共享 锁 ( Shared lock ) 

Read set (i224 ), 979 

Read time ( 读 时 间 ), 970 

READ UNCOMMITTED, 407 ~ 408 

Read-locks-one-write-locks-all ( 读 封 锁 一 个 写 封 锁 
所 有 )，1034 

Read-only transaction ( 只 读 事 务 )，403 ~ 404, 
958 

Real number (223%), 293, 569 

Record (记录 ), 567, 572~ 577, 598 ~ 601 

参见 滑动 记录 ， 生 成 记录 ， 特 征 字段 ， 可 变 格 式 
记录 ， 变 长 记录 (Sliding record, Spanned 
record, Tagged field, Variable-format record, 
Variable-length record ) 

Record address， 记 录 地 址 

参见 数据 库 地 址 (Database address ) 

Record fragment( 记录 片段 )，595 | 

Record header (记录 首部 )，575 ~ 576 

Record structure， 记 录 结 构 

参见 Struct 

Recoverable schedule ( 可 恢复 调度 )，992 ~ 994 

Recovery (TRE), 12, 875, 889~890, 898 ~ 
902, 904~905, 913, 990, 1000 ~ 1001, 
1026 ~ 1028 

Recovery manager ( 恢复 管理 器 )，879 

Recursion (38/5 ), 463, 480 ~ 500 

Redo logging (redo 日 志 ), 887, 897 ~ 903 

Redundancy ( JU#), 39~40, 103, 118~ 119, 
125 

Redundant arrays of independent disks ， 独 立 磁盘 的 
TREZ 

参见 RAID 

Redundant disk ( 元 余 磁盘 ), 552 

Reference (引用 ), 133, 167, 169 ~ 171，452， 
455 ~ 456 | 
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Reference column (引用 列 )，452 ~ 454 

REFERENCES, 320, 410 

REFERENCING, 341 

Referential integrity ( 引用 完整 性 )，47，51 ~ 53, 
232 

参见 外 键 (Foreign key ) 

Reflexivity ( 自 反 性 )，99 

Relation (关系 )，61，303，463，791，793 ~ 794 

参见 创建 关系 ， 维 表 ， 事 实 表 ， 试 探 关系 ， 表 ， 

. 视图 ( Build relation, Dimension table, Fact 

table, Probe relation, Table, View )- 

Relation schema (KRM), 62, 66, 73, 194, 
292 ~ 301 

Relational algebra (关系 代数 )，189 ~ 237, 259~ 
260, 463, 471~480, 795 ~ 808, 811 

Relational atom ( 关系 原子 )，464 

Relational database schema ( 关系 数据 库 模 式 ), 24， 
62, 190~191, 379~381, 383 

Relational model (KARA), 4~5, 61 ~ 130, 
155 ~ 164, 173 

SWRBRR, HAKAM (Nested relation, 
Object-relational model ) 

Relational OLAP, XROLAP 

参见 ROLAP 

Relationship (联系 ), 25, 31~32, 40~44, 67~ 
70, 138~141, 162 ~ 163 

参见 二 元 联系 ， Isa 联 系 ， 多 对 多 联系 ， 多 对 一 联 
系 ， 多 路 关系 ， 一 对 一 联系 ,支持 联系 
(Binary relationship, Isa relationship, Many- 
many relationship, Many-one relationship, 
Multiway relationship, One-one relationship, 
Supporting relationship ) 

Relationship set 联系 集 )，27 

RELATIVE, 361 

Renaming ( 重 命名 )，193，203 ~ 205，304 ~ 305 

REPEAT, 373 

REPEATABLE READ, 407 ~ 408 

Repeating field (HSE ), 590 ~ 593 

Replicated data ( 多 副本 数据 )，1021，1031 ~ 1032 

Resilience (回复 性 )，875 

RETURN, 367 


Reuter, A. , 916, 988 

Revoking privileges (WAX), 417 ~ 421 

Right outerjoin ( 右 外 连接 ), 228, 273 

Right-deep join tree ( 右 深 度 连接 树 )，848 
Right-recursion ( 右 递 归 )，484 

Rivest, R.L. , 712 

Robinson, J.T. , 712, 988 

ROLAP, 1073 

Role (角色 )，29 ~ 31 

Rollback ( MIZŠ ), 402, 404 ~ 405 

参见 天 折 ， 连 锁 回 滚 ( Abort, Cascading rollback ) 
Roll-up (_£#), 1079 

Root (4R), 174, 633 

Root tag ( 根 标 记 ), 179 

Rosenkrantz, D.J. , 1045 

Rotation, of disk ( 磁盘 转动 )，517 
Rotational latency ( 转动 延 时 ), 520, 540 
参见 延 时 ( Latency ) 

Rothnie, J. B. Jr. , 712, 987 
Roussopoulos, N. , 712 

Row-level trigger ( 行 级 触发 )，342 
R-tree (R- 树 )，666，696 ~ 699 

Rule (规则 ), 465 ~ 468 

Run-length encoding (分 段 长 度 编码 )，704 ~ 707 


S 


Safe rule (安全 规则 ), 467, 482 

Saga ( 系列 记载 )，1037 ~ 1040 

Sagiv, Y., 1099 

Salem, K. , 566, 1044 

Salton, G. , 664 

Schedule ( 调度 ), 918, 923 ~ 924 

SLB TIRE, RAE ( Serial schedule, 
Serializable schedule ) 

Scheduler ( 调度 管理 程序 )，917，932，934 ~ 936, 
951 ~ 957, 969, 973~975, 979 ~ 980 

Schema (模式 )，49, 85, 167, 173, 504, 572, 
515 

参见 数据 库 模 式 ， 全 局 模式 ， 关 系 模式 ， 关 系数 
EFRA, EAA (Database schema ， 


Global schema, Relation schema, Relational 
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database schema, Star schema ) 

Schneider, R., 711 

Schwarz, P. , 916, 1044 

Scope of names ( 名 字 作用 范围 )，269 

Scrolling cursor ( 卷 型 游标 )，361 

Search key ( 查找 键 )，605 ~ 606, 612, 614, 623, 
665 

参见 散 列 键 ( Hash key ) 

Second normal form (第 二 范式 ), 116 

Secondary index ( 辅助 索引 )，622 ~ 625 

参见 倒 排 索引 (Inverted index ) 

Secondary storage ( 二 级 存储 器 ), 6，510 ~ 513 

参见 磁盘 ， 光 盘 (Disk, Optical disk ) 

Second-chance algorithm, second-chance 算法 

参见 时 钟 算法 ( Clock algorithm ) 

Sector (HX )，516，518 

Seeger, B., 711 

Seek time (查找 时 间 ), 519 ~ 520, 535, 540 

SELECT, 240 ~ 243, 284, 410, 428, 431 ~ 432, 
789 ~ 790 

参见 单元 组 选择 ( Single-row select ) 

Selection (## ), 192~ 193, 196, 205, 217~ 
218, 221, 241, 243, 245 ~ 246, 473 ~ 475, 
724 ~ 725, 737, 758~760, 770~779, 797 -~ 
801, 805, 818, 823~826, 844, 860 ~ 862, 
864, 868 

参见 过 滤器 ， 下 推选 择 ， 二 变量 选择 〈Filter， 
Pushing selections, Two-argument selection ) 

Selectivity of a join ( 连接 的 选择 )，858 

Self-describing data ( 自 描述 数据 )，175 

Selinger, P. G. , 874 

Æ Griffiths, P. P, 

Selinger-style optimization ( Selinger 风 格 优化 ), 
845, 857 

Sellis, T. K. , 712 

Semantic analysis， 语 义 分 析 

参见 预 处 理 器 ( Preprocessor ) 

Semijoin ( 半 连 接 )，213 

Semistructured data ( 半 结 构 化 数据 )，16，131， 
173 ~ 178 

Sequential file (顺序 文件 )，606 ~ 607 





Serial schedule ( 串 行 调度 )，919 ~ 920 

Serializability ( 串 行 化 )，397 ~ 400，407，918， 
921~923, 927, 989 ~ 990 

参见 冲突 串 行 化 ， 视 图 串 行 化 Conflict- 
serializability, View-serializability ) 

Seriabile schedule ( A] B77 {4H4E ), 920~921, 
994 

Server ( 服务 器 )，7，382 

参见 客户 服务 器 系统 (Client-server system ) 

Session (会 话 )，384，413 

SET, 289, 325, 367~368, 381, 383 ~ 384, 
404, 729, 797~798, 803 

Set type ( 系 型 )，144 ~ 145, 158~160, 166 ~ 
167，217，446 

Sethi, R. , 789 

Set-null policy ( 置 空 原则 )，322 

Sevcik, K., 712 

Shapiro, L. D. , 785 

Shared disk ( 共享 磁盘 ), 776, 778 

Shared lock ( 共享 锁 )，940 ~ 942, 956 

Shared memory ( 共享 存储 器 )，775 ~776, 778 

Shared variable ( 共享 变量 )，352 ~ 354 

Shared-nothing machine ( 无 共享 机 器 )，776 ~ 777 

Shaw, D.E. , 785 

Sheth, A. , 1099 

Signature (44 ), 141 ~ 142 

Silberschatz, A. , 988 

Silo (HE ), 512 

Simon, A. R. , 314 

Simple projection ( 简单 投影 )，802 

Simplicity ( 简化 )，40 

Single-row select( 单元 组 选择 )，354，370 

Single-value constraint ( 单 值 约束 )，47，51 

参见 函数 依赖 ， 多 对 一 联系 (Functional depen- 
dency, Many-one relationship ) 

Size estimation ( 大 小 的 估计 )，822 ~ 834，836 ~ 
839 

Size, of a relation (关系 大 小 )，717，822，840， 
842 

Skeen, D. , 1045 

Slicing ( 切片 )，1076 ~ 1078 
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Sliding records ( 移动 记录 ), 616 

Smalltalk, 132 

Smith, J. M. , 874 

Smyth, P., 1099 

Snodgrass, R. T. , 712 

Sort join (排序 连接 )，743 ~ 747, 844, 862 ~ 863 

Sort key (4 ), 526, 606, 636 

Sorted file， 排 序 文件 

参见 顺序 文件 ( Sequential file ) 

Sorted sublist ( 分 类 的 子 列表 ), 529, 738, 770 

Sorting ( HE ), 222, 227~228, 526~ 532, 737 
~749, 755 ~756, 771~773, 845 

参见 ORDER BY, UDTH AFF RR (ORDER BY, 
Ordering relationship for UDT ) 

Sort-scan ( HEFF AHH), 716~717, 719, 721~ 
722, 868 

Source (数据 源 )，1047 

Spanned record ( 跨 块 记录 ), 594 ~ 595 

Sparse index ( 稀 朴 索引 )，609 ~ 612，622，636 

Splitting law 《分 解 律 )，797 ~ 798 

Splitting nodes (节点 分 裂 )，640 ~ 642, 645, 698 
~ 699 

Splitting rule (分 解 规则 )，90 ~ 91 

SQL, 4~5, 131, 189, 239~424, 449 ~ 461, 
492 ~ 500, 789 ~ 793 

SQL agent ( SQL 代理 )，385 

SQLSTATE, 352 ~ 353，356，374 

Strikant, R. ，1099 

Stable storage ( 稳定 存储 器 ), 548 ~ 550 

Star schema ( 星 型 模式 )，1073 ~ 1075 

Start action 《开始 操作 ), 884 

START TRANSACTION, 402 

Start-checkpoint action ( 检查 点 开始 操作 )，893 

Start-dump action《〈 转 储 开 始 操作 )，911 

Starvation ( 饿 死 )，1016 ~ 1017 

State, of a database (数据 库 状态 )，879，1039 

Statement record ( 语句 记录 )，386 ~ 388 

Statement -level trigger ( 语句 级 触发 )，342 

Statistics ( 统计 量 )，13，836，839 ~ 840 

参见 直方 图 ( Histogram ) 

Steams, R. E., 1045 


Stemming ( 抽取 词 干 )，629 

Stem, R.C., 210 

Stonebraker, M. , 21, 785, 1045 

Stop word (无 用 词 )，629 

Storage manager ( 存储 管理 器 )，12， 

参见 缓冲 区 (Buffer ) 

Stratified negation (分 层 非 )，486 ~ 490，494 ~ 
496 

Strict locking (严格 封锁 )，994 

String (FAE ), 245 ~ 247, 292 

参见 位 串 (Bit string ) 

Stripe ( 分割 )，676 

Striping ( 分割 )，596 

Strong, H.R. , 663 

Struct, 132~133, 137~138, 144~145, 157, 
166 ~ 167, 431, 446, 568 

Structured address ( 结构 地 址 )，580 ~ 581 

Sturgis, H. , 566, 1044 

Subclass ( FÆ ), 33~ 36, 76~80, 149 ~ 151 

Subgoal (HR), 465 

Subquery (+ #ifJ), 264~276, 431~432, 812 
~ 819 

参见 相关 子 查询 (Correlated subquery ) 

Subrahmanian, V.S. , 712 

Suciu, D. , 187, 188, 1099 

Sum (RA ), 223, 279, 437 

Superkey (#4 ), 86, 105 

Support ( 支持 度 )，1093 

Supporting relationship ( 支持 联系 )，56，72，74 
~75 

Swami, A. , 1099 

Swizzling (BS ), 581 ~ 586 

Syntactic category (语法 类 )，788 ~ 789 

Syntax analysis ， 语 法 分 析 

参见 语法 分 析 程 序 (parser ) 

System failure ( 系统 故障 )，876 ~ 877 

System R ( 系统 R ), 21, 314, 874 


17 ~ 18 


T 


Table (#2), 293, 301, 303 
BWIA (Relation ) 
Table-scan ( RHH ), 716, 719, 721, 861 ~ 862, 
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867 ~ 868 

Tag (tric), 178 

Tagged field( 标记 字段 )，593 

Tanaka, H. , 785 

Tape (磁带 ), 512 

Template (模板 )，1058 ~ 1059 

Tertiary memory ( 三 层 主 存储 器 )，512 ~ 513 

Tertiary storage (三 层 存储 器 )，6 

Thalheim, B. , 60 

THEN, 368 

Theta-join (6- 连 接 )，199 ~ 201, 205, 220, 477, 
731, 796~799, 802, 805, 819~ 820, 826 ~ 
827 

Theta-outerjoin ( 6- 外 连接 )，229 

Third normal form， 第 三 范式 

参见 3NF 

Thomas, R. H., 1045 

Thomasian, A., 988 

Thrashing ( ISK), 766 

3NF, 114~116, 124 ~ 125 

Three-valued logic ( ={Hi# 4 ), 249 ~ 251 

Thuraisingham , B. , 988 

TIME, 247 ~ 248, 293, 571 ~ 572 

Timeout ( 超时 ), 1009 ~ 1010 

TIMESTAMP, 248, 575, 577, 969 ~ 979, 984, 
1014 ~ 1017 

Tombstone ( 删除 标记 ), 581, 600 

Top-down plan selection ( 自 顶 向 下 的 计划 选择 )， 
843 

TPMMS 

参见 两 阶段 ， 多 路 归并 排序 (Two-phase， 
multiway mergesort ) 

Track (磁道 )，515 ~ 517，579 

Traiger, I. L. , 987 ~ 988 

Training set ( 训练 集 )，1091 

Transaction (事务 ), 1~2, 12, 17~19, 397~ 
409, 877 ~ 883, 923~924, 1020~ 1021 

参见 不 完全 事务 ， 长 事务 ( Incomplete transaction, 
Long-duration transaction ) 

Transaction component ( 事务 组 件 )，1020 

Transaction manager ( 事务 管理 器 )，878，917 

Transaction processing， 事 务 处 理 
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参见 并 发 ， 死 锁 ， 锁 技术 ， 有 日 志 技术 ， 调 度 
(Concurrency, Deadlock, Locking, Logging, 
Scheduling ) 

Transfer time ( 转移 时 间 ), 520, 535 

Transitive rule〈 传 递 规则 ), 96~97, 121 

Translation table ( 转换 表 ), 582 ~ 583 

Tree, $f 

参见 B- 树 ，Bushy 树 ， 决 策 树 ， 表 达 式 树 ， 连 接 树 ， 
kd- 树 ， 左 深度 连接 树 ， 语 法 分 析 树 ， 四 又 树 ， 
右 深 度 连接 树 ，R- 树 (B-tree, Bushy tree, 
Decision tree, Expression tree, Join tree, kd- 
tree, Left-deep join tree, Parse tree, Quad tree, 
Right-deep join tree, R-tree ) 

Tree protocol ( 树 协议 )，963 ~ 969 

Trigger ( fk ), 315, 336, 340~345, 410~411, 
876, 879 

Trivial FD 《平凡 函数 依赖 )，92，105 

Trivial MVD (平凡 多 值 依赖 )，120 ~ 122, 127 

Tuple (元 组 )，62 ~ 63，170 

参见 悬浮 元 组 (Dangling tuple ) 

Tuple variable (元 组 变量 )，256 ~ 257 

Tuple-based check ( 基于 元 组 的 检查 )，327，330 
~ 331, 339 

Turing-complete language ( 图 灵 完 备 语言 )，189 

Two-argument selection ( 两 参数 选择 )，812 ~ 817 

Two-pass algorithm ( 两 趟 算法 )，737 ~ 757 

Two-phase commit ( 两 阶段 提交 ), 1024 ~ 1028 

Two-phase locking ( 两 阶段 封锁 )，936 ~ 938 

Two-phase, multiway merge-sort (两 阶段 多 路 归 
并 排序 )，0，528 ~ 532, 536 ~ 537 

Type 《类 型 )，794，1049 

Type constructor ( 类 型 构造 符 )，132 

Type system (类 型 系统 )，132 ~ 133，144 ~ 146, 
171 


U 


UDT, 449 ~ 452 

Ullman, J. D. , 21, 130, 474, 502, 530, 726, 
789, 852, 1099 ~ 1100 

UNDER, 410 ~ 411 

UNDO, 375 

Undo logging (undo A i& ), 884 ~ 896 
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Undo/redo logging (undo/redo A & ), 887, 903 ~ 
909 

Union (3#), 192~194, 215 ~217, 260 ~ 262, 
278, 442, 472, 722 ~ 723, 728~729, 741, 
747, 751 ~752, 755, 779, 796~798, 803, 
833 

Union rule ( 并 规则 )，127 

UNIQUE, 316 ~ 319 

UNKNOWN, 249 ~ 251 

Unknown value ( RAIE ), 248 

Unstratified negation ， 不 分 层 非 

参见 分 层 非 ( Stratified negation ) 

Unswizzling( 解除 混 写 )，586 

Updatable view ( 不 可 更 新 视图 )，305 ~ 307 

Update ( 修改 )，289 ~ 290，410，601，615 ~ 616, 
709, 1052 

SNE (Modification ) 

Update anomaly ( 更 新 异常 )，103 

Update lock ( 更 新 锁 )，945 ~ 946 

Update record( 更 新 记录 )，885 ~ 886, 897, 903 

Upgrading locks ( 升级 锁 )，943 ~ 945，957 

参见 更 新 锁 ( Update lock ) 

USAGE，410 

User-defined type ， 用 户 定义 类 型 

参见 UDT 

Uthurusamy, R. , 1099 


Vv 


Valduriez, P. , 1045 

Valid XML ( 有 效 XML ), 178 ~ 179 

Validation ( 有效 性 确认 ), 969, 979 ~ 985 

Value count ( (Ait#), 719, 822, 840 

VALUES, 286 

Van Gelder, A. , 502 

VARCHAR, 292 

Variable-format record ( 可 变 格 式 记 录 ), 590, 593 
~ 594 

Vatiable-length record ( 变 长 记录 ), 570 ~ 571, 
589 ~ 594, 998 ~ 999 

Vassalos, V., 1099 

Vertical decomposition ( 垂直 分 解 )，1020 


Vianu, V., 21 

View ( 视图 )，301 ~312, 345, 1052 

参见 实例 化 视图 (Materialized view ) 
View-serializability〈 视 图 可 串 行 性 )，1003 ~ 1009 
Virtual memory ( 虚 存 )，509 ~ 510，578 

Vitter, J. S., 566 

Volatile storage ( 易 失 存储 器 )，513 ~ 514 


w 


Wade, B. W. , 424 

Wait-die ( 等待 -死亡 )，1014 ~ 1017 

Waiting bit ( 等 待 位 )，955 

Waits-for graph ( 等 待 图 ), 1010 ~ 1012 

Walker, A. ，502 

Warehouse ( WHERE ), 1048, 1051 ~ 1053, 
1071 

Warning protocol (警示 协议 )，958 ~ 961 

Weak entity set ( 弱 实 体 集 )，54 ~ S59，71 ~ 75， 
154 

Weiner, J. L. , 187 

Well-formed XML ( 构造 良好 的 XML ), 178 ~ 180 

Westwood, J.N. , 210 

WHEN, 340, 342 

WHERE, 240 ~ 241, 243~244, 264, 284, 288, 
428 ~ 429, 789 

Where-am-I query ( Where-am-I 查 询 ), 667, 697 

WHILE, 373 

White, S., 424 

Widom, J., 187~188, 348, 1099 

Wiederhold, G. , 604, 1100 

WITH, 492 ~ 493 

Wong, E., 21, 874 

Wood, D. , 785 

Workflow (工作 流 )，1036 

World-Wide-Web consortium ( WWW 国 际 财 团 )， 
187 | 

Wound-wait ( 伤害 - 等待)，1014 ~ 1017 

Wrapper ( 包装 器 )，1048，1057 ~ 1064 

Wrapper generator ( 包装 器 生成 器 )，1059 ~ 1060 

Write action ( 写 动 作 ), 881, 918 

Write failure ( 写 失败 )，546，550 
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参见 系统 故障 (System failure ) 

Write lock， 写 锁 

人 参见 排他 锁 (Exclusive lock ) 

Write set ( 写 集合 )，979 

Write time ( 写 时 )，970 

Write-ahead logging rule ( 提前 写 日 志 规则 )，897 
参见 redo 日 志 (Redo logging ) 

Write-through cache (HS ), 508 


X 


XML, 16, 131~ 132, 173, 178 ~ 186, 629 
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Yerneni, R. , 1100 
Youssefi, K. , 874 


Z 


Zaniolo, C. , 130, 712 
Zicari, R. , 712 

Zig-zag join (Zig-zag 连 接 )，762 ~ 763 

Zip disk (Zip 磁盘 ), 513 

Zipfian distribution ( Zipfian 4) ), 632, 825 


